爬虫分类

作者: 运维大湿兄 | 来源:发表于2019-04-03 15:54 被阅读0次

7.爬虫概述
爬虫-原理和流程
爬虫分类
爬虫分类
Python爬虫简述系列之一
爬虫(一)
爬虫的分类
python进阶三:爬虫
（2018-05-23.Python从Zero到One）7、（爬
python3爬虫修炼手册-Part1

爬虫，又称网络爬虫，也叫网页蜘蛛。
网络爬虫按照系统结构和实现技术，大致可以分为以下几种类型：通用网络爬虫（General Purpose Web Crawler）、聚焦网络爬虫（Focused Web Crawler）、增量式网络爬虫（Incremental Web Crawler）、深层网络爬虫（Deep Web Crawler）。实际的网络爬虫系统通常是几种爬虫技术相结合实现的

1、通用爬虫

常见就是搜索引擎，无差别的收据数据、存储、提取关键字，构建索引库，给用户提供搜索接口。
爬取流程：
1）初始一批URL，将这些URL放到待爬取队列
2）从队列拉取这些URL，通过DNS解析IP，对IP对应的站点下载HTML页面，保存到本地服务器众，爬取完的URL放到已爬取队列
3）分析网页内容，找出页面里面的其他关心的URL链接，继续第二部，直到爬取条件结束。
搜索引擎如何获取一个新网站的URL：
新网站主动提交给搜索引擎
通过其他网站页面中设置的外链
搜索引擎和DNS服务商合作，获取最新收录的网站

2、聚焦爬虫

有针对性的编写特定领域数据的爬取程序，针对某些类别数据采集的爬虫，是面向主题的爬虫。

3、增量式网络爬虫

增量式网络爬虫（Incremental Web Crawler）是指对已下载网页采取增量式更新和只爬行新产生的或者已经发生变化网页的爬虫，它能够在一定程度上保证所爬行的页面是尽可能新的页面。和周期性爬行和刷新页面的网络爬虫相比，增量式爬虫只会在需要的时候爬行新产生或发生更新的页面，并不重新下载没有发生变化的页面，可有效减少数据下载量，及时更新已爬行的网页，减小时间和空间上的耗费，但是增加了爬行算法的复杂度和实现难度。增量式网络爬虫的体系结构[包含爬行模块、排序模块、更新模块、本地页面集、待爬行 URL 集以及本地页面URL 集。