美文网首页
爬虫分类

爬虫分类

作者: 运维大湿兄 | 来源:发表于2019-04-03 15:54 被阅读0次

爬虫,又称网络爬虫,也叫网页蜘蛛。
网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(General Purpose Web Crawler)、聚焦网络爬虫(Focused Web Crawler)、增量式网络爬虫(Incremental Web Crawler)、深层网络爬虫(Deep Web Crawler)。 实际的网络爬虫系统通常是几种爬虫技术相结合实现的

1、通用爬虫

常见就是搜索引擎,无差别的收据数据、存储、提取关键字,构建索引库,给用户提供搜索接口。
爬取流程:
1)初始一批URL,将这些URL放到待爬取队列
2)从队列拉取这些URL,通过DNS解析IP,对IP对应的站点下载HTML页面,保存到本地服务器众,爬取完的URL放到已爬取队列
3)分析网页内容,找出页面里面的其他关心的URL链接,继续第二部,直到爬取条件结束。
搜索引擎如何获取一个新网站的URL:
新网站主动提交给搜索引擎
通过其他网站页面中设置的外链
搜索引擎和DNS服务商合作,获取最新收录的网站

2、聚焦爬虫

有针对性的编写特定领域数据的爬取程序,针对某些类别数据采集的爬虫,是面向主题的爬虫。

3、增量式网络爬虫

增量式网络爬虫(Incremental Web Crawler)是 指 对 已 下 载 网 页 采 取 增 量式更新和只爬行新产生的或者已经发生变化网页的爬虫,它能够在一定程度上保证所爬行的页面是尽可能新的页面。 和周期性爬行和刷新页面的网络爬虫相比,增量式爬虫只会在需要的时候爬行新产生或发生更新的页面 ,并不重新下载没有发生变化的页面,可有效减少数据下载量,及时更新已爬行的网页,减小时间和空间上的耗费,但是增加了爬行算法的复杂度和实现难度。增量式网络爬虫的体系结构[包含爬行模块、排序模块、更新模块、本地页面集、待爬行 URL 集以及本地页面URL 集。

4、Deep Web 爬虫

相关文章

  • 7.爬虫概述

    爬虫概述 知识点: 了解 爬虫的概念 了解 爬虫的作用 了解 爬虫的分类 掌握 爬虫的流程 1. 爬虫的概念 模拟...

  • 爬虫-原理和流程

    爬虫原理 模拟浏览器发送网络请求,接收请求响应 爬虫分类 通用爬虫:搜索引擎的爬虫聚焦爬虫:针对特定网站的爬虫积累...

  • 爬虫分类

    通用爬虫 和 聚焦爬虫 两种 通用网络爬虫:主要用于大型搜索引擎 比如用户在百度搜索引擎上检索对应关键词时,百度将...

  • 爬虫分类

    爬虫,又称网络爬虫,也叫网页蜘蛛。网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型:通用网络爬虫(Gene...

  • Python爬虫简述系列之一

    1,简单分类 根据使用场景,网络爬虫可分为 通用爬虫 和 聚焦爬虫 两种. 2,通用爬虫 通用网络爬虫 是 捜索引...

  • 爬虫(一)

    分类 根据应用的场景不同可分为通用爬虫和聚焦爬虫 通用爬虫 通用网络爬虫是捜索引擎抓取系统(Baidu、Yahoo...

  • 爬虫的分类

    爬虫的分类 网络爬虫按照系统结构和实现技术,大致可以分为以下几种类型 通用网络爬虫:全网爬虫,爬取对象有种子URL...

  • python进阶三:爬虫

    1.爬虫简介 1.1爬虫分类 1.1.1通用爬虫 通用搜索引擎(Search Engine)工作原理step1:抓...

  • (2018-05-23.Python从Zero到One)7、(爬

    新浪网分类资讯爬虫 思考:如何将已有的Scrapy爬虫项目,改写成scrapy-redis分布式爬虫。 要求:将所...

  • python3爬虫修炼手册-Part1

    1.1、爬虫分类(1)通用爬虫通常是对搜索引擎的内容,全部爬取下来,速度较快(2)聚焦爬虫聚焦爬虫的工作流程较为复...

网友评论

      本文标题:爬虫分类

      本文链接:https://www.haomeiwen.com/subject/csokbqtx.html