美文网首页
Python教程:什么是增量式爬虫?什么是深层网络爬虫?

Python教程:什么是增量式爬虫?什么是深层网络爬虫?

作者: 鹤子青云上 | 来源:发表于2022-08-23 17:43 被阅读0次

网络爬虫历经几十年的发展,技术变得更加多样化,并结合不同的需求衍生出类型众多的网络爬虫。网络爬虫按照系统结构和实现技术大致可以分为4种类型,分别是通用网络爬虫、聚焦网络爬虫、增量式网络爬虫、深层网络爬虫。接下来,对增量式爬虫和深层网络爬虫这两种爬虫分别进行介绍。

1.增量式爬虫

增量式网终爬虫(Incremental Web Crawler)是指对已下载的网页采取增量式更新,只抓取新产生或者已经发生变化的网页的网络爬虫。
  增量式网络爬虫只会抓取新产生的或内容变化的网页,并不会重新抓取内容未发生变化的网页,这样可以有效地减少网页的下载量,减少访问时间和存储空间的耗费,但是增加了网页抓取算法的复杂度和实现难度。
 
2.深层爬虫

深层网络爬虫(Deep Web Crawler)是指抓取深层网顷的网络爬虫,它要抓取的网页层次比较深,需要通过一定的附加策略才能够自动抓取,实现难度较大。

表层网页与深层网页

网页按存在方式可以分为表层网页(Surface Web)和深层网页(Deep Web),关于这两类网页的介绍如下。

表层网页是指传统搜索引擎可以索引的页面,主要以超链接可以到达的静态网页构成的网页。

深层网页是指大部分内容无法通过静态链接获取的,只能通过用户提交一些关键词才能获取的网页,如用户注册后内容才可见的网页。

相关文章

网友评论

      本文标题:Python教程:什么是增量式爬虫?什么是深层网络爬虫?

      本文链接:https://www.haomeiwen.com/subject/msmggrtx.html