Python面试必备——分布式爬虫scrapy+redis解析

作者: 14e61d025165 | 来源:发表于2019-06-14 15:30 被阅读1次

Python面试必备——分布式爬虫scrapy+redis解析
redis分布式爬虫初体验
分布式爬虫scrapy+redis入门
分布式爬虫| 你必须得懂的那些Redis基础
Scrapy+redis分布式爬虫(七、分布式爬虫)
零基础如何高效的学习好Python爬虫技术？
Python爬虫怎么挣钱？解析Python爬虫赚钱方式
关于Python面试的4点，你做到就吃鸡了！
python爬虫常见面试题（二）
Python网络数据采集之图像识别与文字处理

很多小伙伴留言，最近准备跳槽，但是面试的机会比较少，好不容易得到面试机会，由于技术点的匮乏，面试直接被刷掉。

根据反馈，很多面试都问到了分布式爬虫，今天小谷就给大家讲讲~

说到爬虫首先要说的就是scrapy，scrapy是Python界出名的一个爬虫框架。scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。

scrapy能做的事情很多，有人改变了scrapy的队列调度，将起始的网址从start_urls里分离出来，改为从redis读取，多个客户端可以同时读取同一个redis，从而实现了分布式的爬虫。

scrapy+redis架构：

<tt-image data-tteditor-tag="tteditorTag" contenteditable="false" class="syl1560497375603" data-render-status="finished" data-syl-blot="image" style="box-sizing: border-box; cursor: text; color: rgb(34, 34, 34); font-family: "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei", "WenQuanYi Micro Hei", "Helvetica Neue", Arial, sans-serif; font-size: 16px; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-align: left; text-indent: 0px; text-transform: none; white-space: pre-wrap; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); text-decoration-style: initial; text-decoration-color: initial; display: block;">

image

Python学习交流群：1004391443，这里是python学习者聚集地，有大牛答疑，有资源共享！小编也准备了一份python学习资料，有想学习python编程的，或是转行，或是大学生，还有工作中想提升自己能力的，正在学习的小伙伴欢迎加入学习。

scrapy-redis在scrapy的架构上增加了redis，基于redis的特性拓展了如下四种组件：Scheduler，Duplication Filter，Item Pipeline，Base Spider。

1. Scheduler（调度）：

scrapy改造了python本来的collection.deque(双向队列)形成了自己scrapy queue，而scrapy-redis 的解决是把这个scrapy queue换成redis数据库，从同一个redis-server存放要爬取的request，便能让多个spider去同一个数据库里读取。

2. Duplication Filter（去重）：

scrapy-redis中由Duplication Filter组件来实现去重，它通过redis的set不重复的特性，巧妙的实现了DuplicationFilter去重。

3. Item Pipline（管道）：

引擎将(Spider返回的)爬取到的Item给Item Pipeline，scrapy-redis 的Item Pipeline将爬取到的 Item 存⼊redis的 items queue。修改过Item Pipeline可以很方便的根据 key 从 items queue 提取item，从而实现 items processes集群。

4. Base Spider（爬虫）：

不再使用scrapy原有的Spider类，重写的RedisSpider继承了Spider和RedisMixin这两个类，RedisMixin是用来从redis读取url的类。

scrapy+redis工作机制：

<tt-image data-tteditor-tag="tteditorTag" contenteditable="false" class="syl1560497375613" data-render-status="finished" data-syl-blot="image" style="box-sizing: border-box; cursor: text; color: rgb(34, 34, 34); font-family: "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei", "WenQuanYi Micro Hei", "Helvetica Neue", Arial, sans-serif; font-size: 16px; font-style: normal; font-variant-ligatures: normal; font-variant-caps: normal; font-weight: 400; letter-spacing: normal; orphans: 2; text-align: left; text-indent: 0px; text-transform: none; white-space: pre-wrap; widows: 2; word-spacing: 0px; -webkit-text-stroke-width: 0px; background-color: rgb(255, 255, 255); text-decoration-style: initial; text-decoration-color: initial; display: block;">

image

1. 首先Slaver端从Master端拿任务（Request、url）进行数据抓取，Slaver抓取数据的同时，产生新任务的Request便提交给 Master 处理；

2. Master端只有一个Redis数据库，负责将未处理的Request去重和任务分配，将处理后的Request加入待爬队列，并且存储爬取的数据。

网友评论

本文标题：Python面试必备——分布式爬虫scrapy+redis解析

本文链接：https://www.haomeiwen.com/subject/rdlpfctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Python面试必备——分布式爬虫scrapy+redis解析

相关文章