2018-12-04

作者: 老头子_d0ec | 来源:发表于2018-12-04 08:35 被阅读0次

一、使用场景

在需要爬取的数据量极大的情况下，建议使用scrapy框架。性能好。

二、scrapy工作原理

engine引擎，类似于一个中间件，负责控制数据流在系统中的所有组件之间流动，可以理解为“传话者”
spider爬虫，负责解析response和提取Item
downloader下载器，负责下载网页数据给引擎
scheduler调度器，负责将url入队列，默认去掉重复的url
item pipelines管道，负责处理被spider提取出来的Item数据

1164899-20171121153801946-42545472.png

1、从spider中获取到初始url给引擎，告诉引擎帮我给调度器；

2、引擎将初始url给调度器，调度器安排入队列；

3、调度器告诉引擎已经安排好，并把url给引擎，告诉引擎，给下载器进行下载；

4、引擎将url给下载器，下载器下载页面源码；

5、下载器告诉引擎已经下载好了，并把页面源码response给到引擎；

6、引擎拿着response给到spider，spider解析数据、提取数据；

7、spider将提取到的数据给到引擎，告诉引擎，帮我把新的url给到调度器入队列，把信息给到Item Pipelines进行保存；

8、Item Pipelines将提取到的数据保存，保存好后告诉引擎，可以进行下一个url的提取了；

9、循环3-8步，直到调度器中没有url，关闭网站（若url下载失败了，会返回重新下载）。

网友评论

本文标题：2018-12-04

本文链接：https://www.haomeiwen.com/subject/qkipcqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

2018-12-04

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读