美文网首页
爬虫去重策略

爬虫去重策略

作者: Im渣渣 | 来源:发表于2017-10-25 17:13 被阅读0次

    1.将访问过的url保存到数据库中,每次访问的时候通过数据库查询;效率低,使用少。
    2.将访问过的url保存到Set中,内存使用很大。
    3.url经过md5等方法哈希厚保存到set中(scrapy使用该方法去重)
    4.用bitmap方法,将访问过的url通过hash函数映射到某一位,冲突非常高。
    5.bloomfilter方法对bitmap进行改进,多重hash函数降低冲突。1亿个url约占用内容12M。

    相关文章

      网友评论

          本文标题:爬虫去重策略

          本文链接:https://www.haomeiwen.com/subject/entcpxtx.html