1.将访问过的url保存到数据库中,每次访问的时候通过数据库查询;效率低,使用少。
2.将访问过的url保存到Set中,内存使用很大。
3.url经过md5等方法哈希厚保存到set中(scrapy使用该方法去重)
4.用bitmap方法,将访问过的url通过hash函数映射到某一位,冲突非常高。
5.bloomfilter方法对bitmap进行改进,多重hash函数降低冲突。1亿个url约占用内容12M。
1.将访问过的url保存到数据库中,每次访问的时候通过数据库查询;效率低,使用少。
2.将访问过的url保存到Set中,内存使用很大。
3.url经过md5等方法哈希厚保存到set中(scrapy使用该方法去重)
4.用bitmap方法,将访问过的url通过hash函数映射到某一位,冲突非常高。
5.bloomfilter方法对bitmap进行改进,多重hash函数降低冲突。1亿个url约占用内容12M。
本文标题:爬虫去重策略
本文链接:https://www.haomeiwen.com/subject/entcpxtx.html
网友评论