位图：如何实现网页爬虫中的URL去重功能？

作者: 花椒人生 | 来源:发表于2020-07-19 22:20 被阅读0次

45|位图：如何实现网页爬虫中的URL去重功能？
位图：如何实现网页爬虫中的URL去重功能？
爬虫课堂（十四）|URL的去重方法
用布隆过滤器实现网页爬虫中的URL去重功能
从零实现一个高性能网络爬虫（一）网络请求分析及代码实现
布隆过滤器(Bloom Filter)原理及实现
第二个爬虫
Django-加入网页点击次数功能
Python简单爬虫 - 正则表达式
10行代码完成一个爬虫，就这么简单

问题：网页爬虫是搜索引擎中的非常重要的系统，负责爬取几十亿、上百亿的网页。爬虫的工作原理是，通过解析已经爬取页面中的网页链接，然后再爬取这些链接对应的网页。而同一个网页链接有可能被包含在多个页面中，这就会导致爬虫在爬取的过程中，重复爬取相同的网页。如果你是一名负责爬虫的工程师，你会如何避免这些重复的爬取呢？

解析：
关于搜索引擎爬虫网页去重问题的解决，我们从散列表讲到位图，再讲到布隆过滤器。布隆过滤器非常适合这种不需要 100% 准确的、允许存在小概率误判的大规模判重场景。除了爬虫网页去重这个例子，还有比如统计一个大型网站的每天的 UV 数，也就是每天有多少用户访问了网站，我们就可以使用布隆过滤器，对重复访问的用户进行去重。我们前面讲到，布隆过滤器的误判率，主要跟哈希函数的个数、位图的大小有关。当我们往布隆过滤器中不停地加入数据之后，位图中不是 true 的位置就越来越少了，误判率就越来越高了。所以，对于无法事先知道要判重的数据个数的情况，我们需要支持自动扩容的功能。当布隆过滤器中，数据个数与位图大小的比例超过某个阈值的时候，我们就重新申请一个新的位图。后面来的新数据，会被放置到新的位图中。但是，如果我们要判断某个数据是否在布隆过滤器中已经存在，我们就需要查看多个位图，相应的执行效率就降低了一些。位图、布隆过滤器应用如此广泛，很多编程语言都已经实现了。比如 Java 中的 BitSet 类就是一个位图，Redis 也提供了 BitMap 位图类，Google 的 Guava 工具包提供了 BloomFilter 布隆过滤器的实现。

网友评论

本文标题：位图：如何实现网页爬虫中的URL去重功能？

本文链接：https://www.haomeiwen.com/subject/xbxdkktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

位图：如何实现网页爬虫中的URL去重功能？

相关文章

45|位图：如何实现网页爬虫中的URL去重功能？