美文网首页
Scrapy框架学习1

Scrapy框架学习1

作者: 浅望夜星 | 来源:发表于2017-04-11 17:12 被阅读0次

    scrapy爬虫框架结构

    爬虫框架

        爬虫框架是实现爬虫功能的一个软件结构和功能组件的集合

        爬虫框架是一个半成品,能够帮助用户实现专业网络


    “5+2”结构

         用户编写实现:(  入口:SPIDERS    出口:ITEMPIPELINES)

         已有实现:ENGINE,SCHEDULER,DOWNLOADER

         模块的功能

         1.Engine

                 不需要用户修改

                 控制所有模块之间的数据流

                 根据条件触发事件

          2.Downloader

                 不需要用户修改

                 根据请求下载网页

           3.Scheduler

                 不需要用户修改

                 对所有爬取请求进行调度管理

           4.Downloader Middleware中间件

                 目的:实施Engine、Scheluder、Downloader之间进行用户可配置的控制

                 功能:修改丢弃新增请求或响应

                 用户可以编写配置代码

           5.Spider(核心单元)

                 解析Downloader返回的响应

                 产生爬取项

                 产生额外的爬取请求

            6.Item pipelines

                 以流水线方式处理Spider产生的爬取项

                 由一组操作顺序组成,类似流水线,每个操作是一个Item pipeline类型

                 可能操作包括:清理、检验和查重爬取项中给的HTML数据、将数据存储到数据库

             7.Spider  Middleware

                 目的:对请求和爬取项的再处理
                 功能:修改丢弃新增请求或爬取项

    Requests  vs.  Srcapy


    Scrapy框架常用命令

         cmd -> scrapy -h ->进入scrapy命令行          
                                                    scrapy常用命令

    相关文章

      网友评论

          本文标题:Scrapy框架学习1

          本文链接:https://www.haomeiwen.com/subject/ryduattx.html