scrapy执行流程图

作者: 沦陷_99999 | 来源:发表于2019-06-16 20:20 被阅读0次

image.png

用scrapy框架的时候，一定要先明白执行的顺序：
spiders的yeild将request发送给引擎，
引擎对request不做任何处理发送给调度器，
调度器( url调度器)，生成request交给引擎，
引擎拿到request，通过中间件进行层层过滤发送给下载器，
下载器在网上获取到response数据之后，又经过中间件进行层层过滤发送给引擎，
引擎获取到response数据之后，返回给 spisers，spiders的parse()方法对获取到的response数据进行处理，解析出items或者requests，
将解析出来的items或者requests发送给引擎，
引擎获取到items或者requests，将items发送给管道，将requests发送给调度器，
注意！只有当调度器中不存在任何request了，整个程序才会停止，（也就是说，对于下载失败的URL，Scrapy也会重新下载。）