美文网首页
2018-09-05 scrapy运行流程

2018-09-05 scrapy运行流程

作者: 认真的史莱冰 | 来源:发表于2018-09-05 12:04 被阅读0次

      就在最最开始的时候我觉着还是先介绍scrapy的运行流程比较好,有了大致的概念,把scrapy框架分成几个点,再逐一说说这几个点,会比较好

    就拿这个图来说明,scrapy 分为五大件,加两个中间件(中间件的主要作用就是修饰request和response)

    引擎如要是接受其他四个组件发来的信息,经处理传给这些信息生效的地方。

    1.一般来说,由spider发出请求(scrapy里面会有一个start_urls)

    2.spider的请求经由engine发送至scheduler,这里会对很多请求进行排列

    3.scheduler会把请求适时发送给engine再让他传给downloader下载器(这里不是多余,为什么不能直接spider传递给downloader有讲究的)

    4.这里downloader会从外部网站下载网站信息打包成response(这里不是的request是经过包装的)

    5.这个reponse由engine接受传递给spider,这里spider会对这个response进行分析(这个response也会被检测,如果有一些400系列的页面不会进入爬虫)

    6.分析出来有两大成果,第一种分析出来所需要的数据,ok直接进入itempipeline,分析出来链接就传递给调度器进行再进行下一次下载

    7.分析出实例的item会进入pipeline,进行最后一步的数据清洗,清洗完之后该入库入库,该咋滴。

    相关文章

      网友评论

          本文标题:2018-09-05 scrapy运行流程

          本文链接:https://www.haomeiwen.com/subject/xoqawftx.html