美文网首页
85.http权威指南-第9章-爬虫

85.http权威指南-第9章-爬虫

作者: wo不是黄蓉 | 来源:发表于2022-04-04 09:40 被阅读0次

爬虫也被称为蜘蛛:是一种机器人,它会递归地对各种信息性web站点进行遍历,根据html连接创建的网络。网络搜索就是利用爬虫,把所有文档都拉回来,然后对这些文档进行处理,形成一个可搜索的数据库。

爬虫要避免进入循环。

避免循环和重复的方式:

  • 规范化url
  • 广度优先的爬行
  • 节流(限制一段事件内机器人可以从一个站点获取的网页数)
  • 限制Url大小
  • url站点黑名单(访问到该url时避开)
  • 模式检测(制定规则)
  • 内容指纹(重复性检查)
  • 人工监视

记录爬虫访问地址的几种方式:

  • 树和散列表
  • 有损的存在位图(填数据)
  • 检查点(存储结果道硬盘上)
  • 分类

相关文章

网友评论

      本文标题:85.http权威指南-第9章-爬虫

      本文链接:https://www.haomeiwen.com/subject/zegfsrtx.html