美文网首页
爬虫(3-6 3-7)

爬虫(3-6 3-7)

作者: buaishengqi | 来源:发表于2018-07-03 20:51 被阅读148次

3-6url去重方法
爬虫去重策略:
1将访问过的URL保存到数据库中:
2将访问过的URL保存到set中,只需要0(1)的代价就可以查询URL1000000002byte50个字符/1024/1024/1024 = 9G
3URL经过md5等方法哈希后保存到set中
4用bitmap方法,将访问过的URL通过hash函数映射到某一位
5bloomfilter方法对bitmap进行改进,多重hash函数降低冲突

3-73-7 彻底搞清楚unicode和utf8编码
字符串编码
1计算机只能处理数字,文本转换为数字才能处理,计算机中8个比特作为一个字节,所以一个字节能表示最大的数字就是255


1.jpg

相关文章

  • 爬虫(3-6 3-7)

    3-6url去重方法爬虫去重策略:1将访问过的URL保存到数据库中:2将访问过的URL保存到set中,只需要0(1...

  • 3-7

    要怎样好好好走下去, 滚,现在滚,

  • 3-7

    其实,能够剔除不必要的情绪,人生也会轻松很多。

  • 3-7

    3-7 呈光师兄 人生其实是很长的,一个点的得失不能说明什么,也不能决定什么。 人的潜力无穷。 成长经历影响格局,...

  • 3-7

    include include struct student{int d...

  • 3-7

  • 3-7

    尊敬的金童老师好 我是4岁男孩妈妈西安子韬妈,下面是我的早课集训收获 集训收获 我是今天集训的主持,晚到了5...

  • 3-7

    宝宝连着三天晚上睡觉,白天不睡或者少睡了,黑白颠倒的情况正在逐渐扭转,真是太棒了。而且,宝宝大声哭闹的状况也少了,...

  • 3-7

    今天我感到有些烦躁,有些疲累,对着屏幕想了半天,不知道该写什么。倒不是无事可写,只是没有心情。表达向来是需要心情配...

  • 3-7

    感恩我身边有一群特别有能量的朋友,坚持每天把正能量分享出来,滋养着我。 感恩静送我曼陀罗画册。给我分...

网友评论

      本文标题:爬虫(3-6 3-7)

      本文链接:https://www.haomeiwen.com/subject/obbjuftx.html