33.scrapy_redis概念作用和流程

33.scrapy_redis概念作用和流程

作者: M_小七 | 来源:发表于2020-07-28 15:02 被阅读0次

scrapy_redis概念作用和流程

学习目标

了解分布式的概念及特点
了解 scarpy_redis的概念
了解 scrapy_redis的作用
了解 scrapy_redis的工作流程

在前面scrapy框架中我们已经能够使用框架实现爬虫爬取网站数据,如果当前网站的数据比较庞大, 我们就需要使用分布式来更快的爬取数据

1. 分布式是什么

简单的说分布式就是不同的节点（服务器，ip不同）共同完成一个任务

2. scrapy_redis的概念

scrapy_redis是scrapy框架的基于redis的分布式组件

3. scrapy_redis的作用

Scrapy_redis在scrapy的基础上实现了更多，更强大的功能，具体体现在：

通过持久化请求队列和请求的指纹集合来实现：

断点续爬
分布式快速抓取

4. scrapy_redis的工作流程

4.1 回顾scrapy的流程

1.3.3.scrapy工作流程.png

思考：那么，在这个基础上，如果需要实现分布式，即多台服务器同时完成一个爬虫，需要怎么做呢？

4.2 scrapy_redis的流程

在scrapy_redis中，所有的待抓取的request对象和去重的request对象指纹都存在所有的服务器公用的redis中
所有的服务器中的scrapy进程公用同一个redis中的request对象的队列
所有的request对象存入redis前，都会通过该redis中的request指纹集合进行判断，之前是否已经存入过
在默认情况下所有的数据会保存在redis中

具体流程如下：

7.4.2.scrapy_redis的流程.png

小结

scarpy_redis的分布式工作原理

在scrapy_redis中，所有的待抓取的对象和去重的指纹都存在公用的redis中
所有的服务器公用同一redis中的请求对象的队列
所有的request对象存入redis前，都会通过请求对象的指纹进行判断，之前是否已经存入过

相关文章

网友评论

本文标题：33.scrapy_redis概念作用和流程

本文链接：https://www.haomeiwen.com/subject/iomfrktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|33.scrapy_redis概念作用和流程|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！