美文网首页
2019-03-30学习笔记 去重策略

2019-03-30学习笔记 去重策略

作者: loonytes | 来源:发表于2019-03-31 00:25 被阅读0次

爬虫去重策略

  1. 将访问过的url保存到数据库中,效率较低
  2. 将访问过的url保存到set(内存)中,只需要o(1)的代价就可以查询url
    对内存的占用较高
  3. url经过md5等方法哈希后保存到set中 (scrapy使用的)
  4. 用bitmap等方法,将访问过的url通过hash函数映射到某一位
    申请一个8个位,每一个url映射到每一个位上
    有冲突的可能性 哈希解决冲突的方法
  5. bloomfilter方法对bitmap进行改进,多重hash函数降低冲突

部分知识

Python用缩进表示代码块,不使用{}
Python 通常是一行写完一条语句,但如果语句很长,我们可以使用反斜杠()来实现多行语句,例如:

total = item_one + \
        item_two + \
        item_three

输入input()
输出print()

导入模块

在 python 用import或者from...import来导入相应的模块。
将整个模块(somemodule)导入,格式为:import somemodule
从某个模块中导入某个函数,格式为:from somemodule import somefunction
从某个模块中导入多个函数,格式为:from somemodule import firstfunc, secondfunc, thirdfunc
将某个模块中的全部函数导入,格式为:from somemodule import *

sys模块详解:https://www.cnblogs.com/Archie-s/p/6860301.html

相关文章

  • 2019-03-30学习笔记 去重策略

    爬虫去重策略 将访问过的url保存到数据库中,效率较低 将访问过的url保存到set(内存)中,只需要o(1)的代...

  • 策略PM入门学习(十二)

    3.12 策略搜索的延伸 策略产品经理入门学习笔记:策略PM入门学习(一)策略PM入门学习(二)策略PM入门学习(...

  • 策略PM入门学习(二十五)完结

    5.6 策略在数据上的应用 策略产品经理入门学习笔记:策略PM入门学习(一)策略PM入门学习(二)策略PM入门学习...

  • 最近面试的几个问题 (二)scrapy 的 request_ur

    去重策略 布隆去重的优点和缺点 优点 缺点

  • 策略PM入门学习(十四)

    4.4 【功能导向性实例】屏幕亮度策略思考方法 策略产品经理入门学习笔记:策略PM入门学习(一)策略PM入门学习(...

  • 爬虫去重策略

    1、将访问过的url保存到数据库中缺点:效率低2、将访问过的url保存到set中,只需要o(1)的代价就可以查询u...

  • 爬虫去重策略

    1.将访问过的url保存到数据库中,每次访问的时候通过数据库查询;效率低,使用少。2.将访问过的url保存到Set...

  • 爬虫去重策略

    数据库去重MySQL 有唯一字段可以去重(这不是数据库去重的唯一方法),但是这种太过依赖MySQL,会导致 MyS...

  • 爬虫去重策略

    1、将url保存到数据库中,检查时在数据库中查找。效率太低,频繁的切换内外存。使用mysql做去重,对url地址进...

  • Java-L09:Map,集合框架的另一部分

    李文轩 2019-03-30声明:这是本人学习极客时间的Java核心36讲的笔记,有侵权请联系我。 Hashtab...

网友评论

      本文标题:2019-03-30学习笔记 去重策略

      本文链接:https://www.haomeiwen.com/subject/ypdsbqtx.html