美文网首页工作生活
谷歌:爬虫协议与标准规范

谷歌:爬虫协议与标准规范

作者: Summer_1981 | 来源:发表于2019-07-03 11:09 被阅读0次

    Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

    故事的起源是这样的,最初的开发者Martijn Koster发现,他的网站被爬虫程序(crawler)所淹没。被爬虫抓取这件事是把双刃剑。良好的爬取可以提高网站的排名,而恶意的爬取可能会导致服务器压力暴增而导致崩溃。所以为了减轻服务器的压力,他在1994年开发了初版标准。
    
    如果做过SEO的朋友,其中一项就是设置良好的robots.txt。对于想要推广网站的公司来说,对于Google、百度这样的搜索引擎的爬虫爬取是有益的,这样可以增加网站的排名。基于鉴于网络安全与隐私的考虑。在淘宝的robots中,则拒接了来自百度蜘蛛的爬取。
    
    其实在很长一段时间内,很多人不知道Robots协议,直到百度和360从2012年起的一场“屏蔽和反屏蔽”的大战中,把 Robots协议 成为了媒体热词。让他在新闻界中跨界成名。
    
    因为Robots协议不是什么技术上的壁垒,他是一种君子协议,比如双方打架说好不用刀,拳拳肉搏,结果其中一个竟然关键时刻 暗箭伤人。
    
    自从它出现以来,它并没有成为一项官方的标准,所以解读该协议的方式也不一样,它也没有及时更新以适应的现代使用场合。
    
    直到2019年7月1日,谷歌开源了Robots Exclusion Protocol(REP),就是我们说的robots.txt,同时也开源了匹配的C++库。
    
    谷歌现在已经创建了REP文档草案,并已将提案提交给互联网工程任务组(IETF),该组织负责推广自愿的互联网标准。

    相关文章

      网友评论

        本文标题:谷歌:爬虫协议与标准规范

        本文链接:https://www.haomeiwen.com/subject/oafqhctx.html