美文网首页
第9章: 爬虫

第9章: 爬虫

作者: 404Not_Found | 来源:发表于2021-12-06 07:36 被阅读0次
    • 作者: 雪山肥鱼
    • 时间:20211206 23:24
    • 目的: 简单了解爬虫

    爬虫即web机器人,能偶在无需人类干预的情况下自动进行一系列web事务的软件程序。很多机器人会从一个web站点逛到另一个web站点,获取内容,跟踪超链接。并对他们找打的数据进行处理。

    web机器人示例:

    • 股票图形机器人每隔几分钟就会向股票市场的服务器发送http get, 用得到的数据来构建股市价格趋势图
    • web统计机器人会收集与网络有关的统计信息,他们会在web上游荡,统计页面数量,记录每隔页面大小。
    • 搜索殷勤机器人会收集他们所找到的所有文档,以创建搜索数据库
    • 比较购物机器人会从在线商店的目录中收集web页面,以构建商品,机器价格数据库

    1. 爬虫及爬行方式

    web爬虫会递归的追踪web连接,抓取一个web上的所有连接的连接。会沿着html超链接创建网络爬行,所以称其为爬虫。

    • 搜索引擎
      搜索引擎使用爬虫在web上游荡,并把他们碰到的文档全部拉回来。然后对这些文档进行处理,形成一个可搜索的数据库。以便用户查找包含了特定单词的文档。
      网上有数以万计的web 页面需要查找和取回,这些爬虫必然是最复杂的机器人。

    1.1 从哪儿开始: 根集

    爬虫开始访问的url初始集合被重做root set 根集。


    爬虫形象图.png

    很明显 S 不是一个很好的root set.

    通常,一个好的根基会包括:

    1. 大的流行web站点。
    2. 新创建页面列表
    3. 不经常被连接的无名页面列表
      搜索殷勤使用的爬虫,都为用户提供了向根集中提交新页面或无名页面的方式。这个根集会随时间推移而增长。是所有新爬虫的种子列表

    相关文章

      网友评论

          本文标题:第9章: 爬虫

          本文链接:https://www.haomeiwen.com/subject/trqoxrtx.html