scrapy 框架学习

作者: 下一秒等待 | 来源:发表于2018-05-17 20:43 被阅读0次

Scrapy数据流是由执行的核心引擎(engine)控制，流程是这样的：
1、爬虫引擎ENGINE获得初始请求开始抓取。
2、爬虫引擎ENGINE开始请求调度程序SCHEDULER，并准备对下一次的请求进行抓取。
3、爬虫调度器返回下一个请求给爬虫引擎。
4、引擎请求发送到下载器DOWNLOADER，通过下载中间件下载网络数据。
5、一旦下载器完成页面下载，将下载结果返回给爬虫引擎ENGINE。
6、爬虫引擎ENGINE将下载器DOWNLOADER的响应通过中间件MIDDLEWARES返回给爬虫SPIDERS进行处理。
7、爬虫SPIDERS处理响应，并通过中间件MIDDLEWARES返回处理后的items，以及新的请求给引擎。
8、引擎发送处理后的items到项目管道，然后把处理结果返回给调度器SCHEDULER，调度器计划处理下一个请求抓取。
9、重复该过程（继续步骤1），直到爬取完所有的url请求。

网友评论

本文标题：scrapy 框架学习

本文链接：https://www.haomeiwen.com/subject/nfmidftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

scrapy 框架学习

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读