分布式爬虫笔记（三）- 分布式存储

作者: Spareribs | 来源:发表于2017-08-09 20:06 被阅读125次

分布式爬虫笔记（三）- 分布式存储
RedisSpider的调度队列实现过程及其源码
分布式爬虫：动机、原理及实现
简单分布式爬虫——第四弹：关于简单分布式爬虫的一点想法
redis分布式爬虫初体验
Python爬虫第十天：数据存储MySql-Redis|Scra
分布式爬虫| 你必须得懂的那些Redis基础
《分布式技术原理与算法解析》学习笔记Day21
简单分布式爬虫——第三弹：nodeSpider的实现
分布式笔记3-分布式数据存储

分布式存储

分布式的存储包括网页文件的存储和爬虫队列的存储，在前面分享的分布式爬虫笔记（二）- 多线程&多进程爬虫实现多线程爬虫使用deque来存储URL信息，实现多线程爬虫使用mysql来存储URL信息。

文件使用HBASE（条件限制本次没有使用到这个：待测试）
缓存已爬取的URL使用redis（优点：直接在内存中处理，速度快）
url相关信息存入momgo（有点：结构是文档式的，拓展性超强）

代码下载

多进程爬虫 - mongo ：与mysql的多进程类似，只是换了一个数据库
多进程爬虫 - mongo+redis

对比分析

多线程

多线程.jpg

多线程 + 多进程

多线程　＋多进程 .jpg

多线程 + 多进程（改进）

架构	获取URL（避免多个进程获取同一个URL获取）	去重
Deque Spider threading BloomFilter	通过Deque双向队列的pop获取	BloomFilter
Mysql Spider threading Spider process	通过Mysql的status字段加行级锁	通过Mysql UNIQUE KEY唯一
Mongo Spider threading Spider process redis	Mongo的锁	redis

多线程 +多进程（改进）.jpg

架构	获取URL（避免多个进程获取同一个URL获取）	去重
Deque Spider threading BloomFilter	通过Deque双向队列的pop获取	BloomFilter
Mysql Spider threading Spider process	通过Mysql的status字段加行级锁	通过Mysql UNIQUE KEY唯一
Mongo Spider threading Spider process redis	Mongo的锁	redis

后记

基本上都是类似的内容，换汤不换药，但是从性能和效率方面会有很大的提高，数据存储使用mongo方面爬虫数据方面存储的扩展，高效的redis内存级别的速度，能提高判断效率加快爬取进度。

以上都是我的个人观点，如果有不同的看法，或者有更好的方法，欢迎留言~~~

分布式爬虫笔记（三）- 分布式存储
分布式存储分布式的存储包括网页文件的存储和爬虫队列的存储，在前面分享的分布式爬虫笔记（二）- 多线程&多进程爬虫...
RedisSpider的调度队列实现过程及其源码
对于非分布式的scrapy爬虫而言，不能共享爬虫队列，不能实现分布式。RedisSpider是依赖Redis存储中...
分布式爬虫：动机、原理及实现
分布式爬虫与爬虫的区别是什么？多了“分布式”三个字。分布式爬虫的动机那么什么是分布式？严谨学术的概念就不搬过来...
简单分布式爬虫——第四弹：关于简单分布式爬虫的一点想法
在前面的三讲简单分布式爬虫——第一弹：了解分布式爬虫结构简单分布式爬虫——第二弹：masterSpider的实现简...
redis分布式爬虫初体验
scrapy+redis实现分布式爬虫前言介绍分布式爬虫又可以称为集群爬虫，和单点爬虫不同的是分布式爬虫可以实...
Python爬虫第十天：数据存储MySql-Redis|Scra
内容简述: 一:数据存储-MySQL|Redis 二:分布式爬虫Scrapy-Redis...
分布式爬虫| 你必须得懂的那些Redis基础
Python分布式爬虫|不会分布式爬虫？带你一步一步写！ Python分布式爬虫—必须掌握的Docker基础...
《分布式技术原理与算法解析》学习笔记Day21
分布式数据存储三要素什么是分布式数据存储系统？分布式存储系统的核心逻辑，就是将用户需要存储的数据根据某种规则存...
简单分布式爬虫——第三弹：nodeSpider的实现
前两讲分别讲了分布式爬虫的结构和masterSpider的实现：简单分布式爬虫——第一弹：了解分布式爬虫结构简单分...
分布式笔记3-分布式数据存储
分布式数据存储整理分布式技术学习的笔记贴出来方便查阅和共享，继续更新中......