谷歌：爬虫协议与标准规范

作者: Summer_1981 | 来源:发表于2019-07-03 11:09 被阅读0次

谷歌：爬虫协议与标准规范
Python爬虫第一天：爬虫概述及抓包工具和urllib库
Python 爬虫协议及建议
Robots协议
Python爬虫第一天：爬虫概述及抓包工具和urllib库
人生不得已——Python爬虫 robots协议
亚马逊robots协议解析
认识robots协议
网络爬虫排除标准——robots协议
基于HTTP的功能追加协议

Robots协议（也称为爬虫协议、机器人协议等）的全称是“网络爬虫排除标准”（Robots Exclusion Protocol），网站通过Robots协议告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。

故事的起源是这样的，最初的开发者Martijn Koster发现，他的网站被爬虫程序（crawler）所淹没。被爬虫抓取这件事是把双刃剑。良好的爬取可以提高网站的排名，而恶意的爬取可能会导致服务器压力暴增而导致崩溃。所以为了减轻服务器的压力，他在1994年开发了初版标准。

如果做过SEO的朋友，其中一项就是设置良好的robots.txt。对于想要推广网站的公司来说，对于Google、百度这样的搜索引擎的爬虫爬取是有益的，这样可以增加网站的排名。基于鉴于网络安全与隐私的考虑。在淘宝的robots中，则拒接了来自百度蜘蛛的爬取。

其实在很长一段时间内，很多人不知道Robots协议，直到百度和360从2012年起的一场“屏蔽和反屏蔽”的大战中，把 Robots协议 成为了媒体热词。让他在新闻界中跨界成名。

因为Robots协议不是什么技术上的壁垒，他是一种君子协议，比如双方打架说好不用刀，拳拳肉搏，结果其中一个竟然关键时刻 暗箭伤人。

自从它出现以来，它并没有成为一项官方的标准，所以解读该协议的方式也不一样，它也没有及时更新以适应的现代使用场合。

直到2019年7月1日，谷歌开源了Robots Exclusion Protocol（REP），就是我们说的robots.txt，同时也开源了匹配的C++库。

谷歌现在已经创建了REP文档草案，并已将提案提交给互联网工程任务组（IETF），该组织负责推广自愿的互联网标准。