爬虫也被称为蜘蛛:是一种机器人,它会递归地对各种信息性web站点进行遍历,根据html连接创建的网络。网络搜索就是利用爬虫,把所有文档都拉回来,然后对这些文档进行处理,形成一个可搜索的数据库。
爬虫要避免进入循环。
避免循环和重复的方式:
- 规范化url
- 广度优先的爬行
- 节流(限制一段事件内机器人可以从一个站点获取的网页数)
- 限制Url大小
- url站点黑名单(访问到该url时避开)
- 模式检测(制定规则)
- 内容指纹(重复性检查)
- 人工监视
记录爬虫访问地址的几种方式:
- 树和散列表
- 有损的存在位图(填数据)
- 检查点(存储结果道硬盘上)
- 分类
网友评论