网络爬虫的分类和问题以及Robots协议

网络爬虫的分类和问题以及Robots协议

作者: Epimenides | 来源:发表于2020-05-17 18:59 被阅读0次

网络爬虫的分类和问题以及Robots协议
人生不得已——Python爬虫 robots协议
Robots协议
亚马逊robots协议解析
网络爬虫排除标准——robots协议
关于购物网站及网页小游戏的robots协议
robots
谷歌：爬虫协议与标准规范
Robots.txt详解
认识robots协议

网络爬虫的分类和问题以及Robots协议

网页爬虫的尺寸:

爬取网页，玩转网页：小规模，数据量小，爬取速度不敏感。(Request库足够)
爬取网站爬取系列网站：中规模，数据量较大，爬取速度敏。（Scrapy库）
爬取全网：大规模，搜索引擎，爬取速度关键；定制开发(如Google,百度,Bing这一类搜索引擎)

网络爬虫引发的问题：

网络爬虫的骚扰：受限于编写水平和目的，网络爬虫将会为Web服务器带来巨大的资源开销
网络爬虫的法律风险：服务器上的数据有产权归属，网络爬虫获取数据后牟利将带来法律风险
网络爬虫泄露隐私：网络爬虫可能具备突破简单访问控制的能力，获得被保护数据从而泄露个人隐私

网络爬虫的限制:

来源审查：判断UserAgent进行限制 :
- 检查来访HTTP协议头的UserAgent域，只响应浏览器或友好爬虫的访问发布公告：Robots协议
发布公告：Robots协议
- 告知所有爬虫网站的爬取策略，要求爬虫遵守
- Robots协议的内容简介：
  - Robots Exclusion Standard （网络爬虫排除标准）
    1. 作用：网站告知网络爬虫哪些页面可以抓取，哪些不行
    2. 一般位置：在网站的根目录下放置robots.txt文件
      
      Google的robots协议
      
      bing的robots协议
      
      baidu的robots协议
    京东网站下的robots.txt文件:
```
User-agent: * 
Disallow: /?* 
Disallow: /pop/*.html 
Disallow: /pinpai/*.html?* 
User-agent: EtaoSpider 
Disallow: / 
User-agent: HuihuiSpider 
Disallow: / 
User-agent: GwdangSpider 
Disallow: / 
User-agent: WochachaSpider 
Disallow: /
```
    Robots协议的基本语法:
```
User-agent: *                     # 注释：  
Disallow: /?*                     *代表所有 
Disallow: /pop/*.html            /代表根目录
```
    其中：
    User-agent 指明那些爬虫可以爬取
    
    Disallow则是不允许爬虫访问的资源的目录
  Robots协议的遵守方式:
  1. 自动或人工识别robots.txt，再进行内容爬取
  2. Robots协议是建议但非约束性，网络爬虫可以不遵守，但存在法律风险

相关文章

网络爬虫的分类和问题以及Robots协议
网络爬虫的分类和问题以及Robots协议网页爬虫的尺寸: 爬取网页，玩转网页：小规模，数据量小，爬取速度不敏感。...
人生不得已——Python爬虫 robots协议
关于robots协议 Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots ...
Robots协议
好的网络爬虫，首先需要遵守Robots协议。Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除...
亚马逊robots协议解析
1.robots协议 Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots ...
网络爬虫排除标准——robots协议
Robots协议 “网络爬虫排除标准”（Robots Exclusion Protocol）也称为爬虫协议、机器人...
关于购物网站及网页小游戏的robots协议
Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion P...
robots
Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion P...
谷歌：爬虫协议与标准规范
Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion P...
Robots.txt详解
Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion P...
认识robots协议
robots协议的作用： Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robot...

网友评论

本文标题：网络爬虫的分类和问题以及Robots协议

本文链接：https://www.haomeiwen.com/subject/qjnsohtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|网络爬虫的分类和问题以及Robots协议|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！