2018-09-05 scrapy运行流程

作者: 认真的史莱冰 | 来源:发表于2018-09-05 12:04 被阅读0次

就在最最开始的时候我觉着还是先介绍scrapy的运行流程比较好，有了大致的概念，把scrapy框架分成几个点，再逐一说说这几个点，会比较好

就拿这个图来说明，scrapy 分为五大件，加两个中间件（中间件的主要作用就是修饰request和response）

引擎如要是接受其他四个组件发来的信息，经处理传给这些信息生效的地方。

1.一般来说，由spider发出请求（scrapy里面会有一个start_urls）

2.spider的请求经由engine发送至scheduler，这里会对很多请求进行排列

3.scheduler会把请求适时发送给engine再让他传给downloader下载器（这里不是多余，为什么不能直接spider传递给downloader有讲究的）

4.这里downloader会从外部网站下载网站信息打包成response（这里不是的request是经过包装的）

5.这个reponse由engine接受传递给spider,这里spider会对这个response进行分析(这个response也会被检测，如果有一些400系列的页面不会进入爬虫)

6.分析出来有两大成果，第一种分析出来所需要的数据，ok直接进入itempipeline，分析出来链接就传递给调度器进行再进行下一次下载

7.分析出实例的item会进入pipeline，进行最后一步的数据清洗，清洗完之后该入库入库，该咋滴。

网友评论

本文标题：2018-09-05 scrapy运行流程

本文链接：https://www.haomeiwen.com/subject/xoqawftx.html

2018-09-05 scrapy运行流程