爬虫原理
模拟浏览器发送网络请求,接收请求响应
爬虫分类
通用爬虫:搜索引擎的爬虫
聚焦爬虫:针对特定网站的爬虫
积累式爬虫:从开始运行到达到停止条件过程中不断爬取数据,会进行去重操作
增量式爬虫:只爬取新产生或者发生变化网页的爬虫
深网爬虫:隐藏在搜索表单或登录表单之后的数据,需要用户提交关键词才能登陆并获得的页面(比如某网站VIP会员)
爬虫流程
1.向起始url发送请求,并获取响应
2.对响应进行提取
——如果提取url,则继续循环①
——如果提取数据,则将数据进行保存
robots协议
Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol)
网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
Robots协议是一个道德层面的约定,爬虫作者无需遵守该协议
网友评论