爬虫去重策略

作者: 星辰大海的碎片 | 来源:发表于2018-12-11 19:44 被阅读0次

爬虫去重策略
爬虫去重策略
爬虫去重策略
爬虫去重策略
网络爬虫去重策略
爬虫（3-6 3-7）
爬虫去重方案
最近面试的几个问题（二)scrapy 的 request_ur
2019-03-30学习笔记去重策略
python分布式爬虫搜索引擎实战-3-爬虫网址去重策略+Pyt

数据库去重
MySQL 有唯一字段可以去重（这不是数据库去重的唯一方法），但是这种太过依赖MySQL，会导致 MySQL 压力大从而崩溃。

Scrapy 去重
Scrapy 自带 set 集合，当程序结束会被清空，但是第二次运行还是会重复插入，适用于一次性的爬虫。

Redis 去重
我们的项目应用的是 Scrapy 和 Redis 结合，如果URL已经存在于 Redis 就忽略。
原理：已经爬取的 URL 地址经过编码后存入 Redis , 并且会做数据持久化,当爬虫再次启动时,会重新加载本地的数据,对爬虫的 URL 做去重。但是数据量较大的时候，会占用较多的内存空间。

Bloom Filter
Bloom Filte 方法对 bitmap 进行改进，多重 hash 函数降低冲突但是这个其实应对海量数据才是效果最好的，因为随着存入的元素数量增加，误算率也随之增加。但是如果元素数量太少，用个 Hash Table 就行。

如果想判断一个元素是不是在一个集合里，一般想到的是将所有元素保存起来，然后通过比较确定。链表，树等等数据结构都是这种思路. 但是随着集合中元素的增加，我们需要的存储空间越来越大，检索速度也越来越慢。不过世界上还有一种叫作 Hash Table的数据结构。它可以通过一个 Hash 函数将一个元素映射成一个 Bit Array 中的一个点。这样一来，我们只要看看这个点是不是 1 就知道可以集合中有没有它了。这就是 Bloom Filte 的基本思想。
Hash 面临的问题就是冲突。假设 Hash 函数是良好的，如果我们的 Bit Array 列长度为 m 个点，那么如果我们想将冲突率降低到例如 1%, 这个 Hash Table 就只能容纳 m/100 个元素。显然这就不叫 Space-efficient 。解决方法也简单，就是使用多个 Hash，如果它们有一个说元素不在集合中，那肯定就不在。如果它们都说在，虽然也有一定可能性它们在说谎，不过直觉上判断这种事情的概率是比较低的