美文网首页
第9章: 爬虫

第9章: 爬虫

作者: 404Not_Found | 来源:发表于2021-12-06 07:36 被阅读0次
  • 作者: 雪山肥鱼
  • 时间:20211206 23:24
  • 目的: 简单了解爬虫

爬虫即web机器人,能偶在无需人类干预的情况下自动进行一系列web事务的软件程序。很多机器人会从一个web站点逛到另一个web站点,获取内容,跟踪超链接。并对他们找打的数据进行处理。

web机器人示例:

  • 股票图形机器人每隔几分钟就会向股票市场的服务器发送http get, 用得到的数据来构建股市价格趋势图
  • web统计机器人会收集与网络有关的统计信息,他们会在web上游荡,统计页面数量,记录每隔页面大小。
  • 搜索殷勤机器人会收集他们所找到的所有文档,以创建搜索数据库
  • 比较购物机器人会从在线商店的目录中收集web页面,以构建商品,机器价格数据库

1. 爬虫及爬行方式

web爬虫会递归的追踪web连接,抓取一个web上的所有连接的连接。会沿着html超链接创建网络爬行,所以称其为爬虫。

  • 搜索引擎
    搜索引擎使用爬虫在web上游荡,并把他们碰到的文档全部拉回来。然后对这些文档进行处理,形成一个可搜索的数据库。以便用户查找包含了特定单词的文档。
    网上有数以万计的web 页面需要查找和取回,这些爬虫必然是最复杂的机器人。

1.1 从哪儿开始: 根集

爬虫开始访问的url初始集合被重做root set 根集。


爬虫形象图.png

很明显 S 不是一个很好的root set.

通常,一个好的根基会包括:

  1. 大的流行web站点。
  2. 新创建页面列表
  3. 不经常被连接的无名页面列表
    搜索殷勤使用的爬虫,都为用户提供了向根集中提交新页面或无名页面的方式。这个根集会随时间推移而增长。是所有新爬虫的种子列表

相关文章

网友评论

      本文标题:第9章: 爬虫

      本文链接:https://www.haomeiwen.com/subject/trqoxrtx.html