1、概述
爬虫,即网页爬虫,网页蜘蛛、网络机器人、网络蚂蚁
-搜索引擎,网络爬虫的应用
爬取特定网站、特定类别的数据
爬虫是数据的获取;但后期数据处理、数据存储……
向网站发起请求,获取资源后分析提取有用数据的程序
2、爬虫分类

-
爬虫一般流程
爬虫流程
- 模拟浏览器发送请求
-
获取响应内容
返回:HTML/Json/二进制数据(图片或视频等) -
解析响应内容
解析HTML数据:正则、xpath(为主)、beautiful soup、css
解析json数据:json模块
解析二进制数据:以wb方式写入文件 -
保存数据
数据库或文件
3、robots协议
君子协议

python 爬虫框架
主要分为5部分,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)
-
调度器
URL管理器、下载器、解析器之间的协调 -
URL管理器
待爬取URL和已爬取URL,防止重复抓取
三种方式:登录、代理、缓存数据库 -
网页下载器
传入URL地址来下载网页,将网页转为字符串
有urllib
(包括登录、代理、cookie)、requests
-
网页解析器
网页字符串进行解析,提取有用的信息
如正则表达式、html.parser、beautifulsoup、lxml
注:
后面三种是以DOM树的方式进行解析 -
应用程序
从网页中提取的有用数据组成一个应用
调度器协调工作
网友评论