美文网首页
Python爬虫学习4-url去重方法

Python爬虫学习4-url去重方法

作者: MingSha | 来源:发表于2017-04-01 20:10 被阅读0次

爬取网页时,url去重是重要一环,这样可以避免重复抓取。
1、url保存在数据库中(效率低)
2、将url保存在set中,但对内存要求高。若有1亿网页,则占用内存为:
100000000*2byte*50个字符/1024/1024/1024=9G
3、url经过md5等方法哈希后保存到set中(对2的改进,可以成倍降低内存占用)。Scrapy使用的这种方法
4、用bitmap方法,将访问过的url通过hash函数映射到某一位。
5、bloomfilter方法对bitmap进行改进,多重hash函数降低冲突

相关文章

  • Python爬虫学习4-url去重方法

    爬取网页时,url去重是重要一环,这样可以避免重复抓取。1、url保存在数据库中(效率低)2、将url保存在set...

  • Python爬虫学习(十六)初窥Scrapy

    Python爬虫学习(一)概述Python爬虫学习(二)urllib基础使用Python爬虫学习(三)urllib...

  • Python安装教程

    学习Python爬虫前,要先安装Python环境,下面就简要介绍两种方法,来获得Python安装程序包。 1、去P...

  • 资料

    Python爬虫系列(一)初期学习爬虫的拾遗与总结(11.4更) Python爬虫学习系列教程 Python爬虫学习手册

  • Python爬虫学习系列教程

    转自: 静觅»Python爬虫学习系列教程 Python爬虫学习系列教程 Python版本:2.7 一、爬虫入门 ...

  • 爬虫入门

    为什么要学习爬虫? Python做爬虫优势 关于Python网络爬虫,我们需要学习的有: 什么是爬虫? 网络爬虫(...

  • Python爬虫学习之小结(一)

    到目前为止,Python爬虫学习已经写了八篇文章,分别是: Python爬虫学习(一)概述Python爬虫学习(二...

  • python爬虫学习-day7-实战

    目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...

  • Python 基础爬虫目录

    目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...

  • python爬虫学习-day5-selenium

    目录 python爬虫学习-day1 python爬虫学习-day2正则表达式 python爬虫学习-day3-B...

网友评论

      本文标题:Python爬虫学习4-url去重方法

      本文链接:https://www.haomeiwen.com/subject/obhwottx.html