美文网首页胶水Python
Scrapy框架解析

Scrapy框架解析

作者: NiceBlueChai | 来源:发表于2017-11-26 15:15 被阅读15次

    Engine
    (1) 控制所有模块之间的数据流
    (2)根据条件触发事件
    不需要用户修改

    Downloader
    根据请求下载网页
    不需要用户修改

    Scheduler
    对所有爬取请求进行调度管理
    不需要用户修改

    Downloader Middleware
    目的:事实Engine、Scheduler和Downloader之间进行用户可配置的控制
    功能:修改、丢弃、新增请求或响应
    用户可以编写配置编码

    Spider
    (1)解析Downloader返回的响应(Response)
    (2)产生爬取项(Scraped item)
    (3)产生额外的爬取请求(Request)
    需要用户编写配置代码

    Item Pipelines
    (1)以流水线方式处理Spider产生的爬取项
    (2)由一组操作顺序组成,类似流水线,每个操作是一个Item Pipeline类型
    (3)可能操作包括:清理、检验和查重爬取项中的HTML数据、将数据储存到数据库
    需要用户编写配置代码

    Spider Middleware
    目的:对请求和爬取项的再处理
    功能:修改、丢弃、新增请求或爬取项
    用户可以编写配置代码

    相关文章

      网友评论

        本文标题:Scrapy框架解析

        本文链接:https://www.haomeiwen.com/subject/rgvkbxtx.html