详解robots协议以及其作用

作者: techLee | 来源:发表于2018-12-08 22:45 被阅读2次

什么是robots协议

先看图

淘宝的robots协议

我们会发现，这张图中显示的是，百度搜索"淘宝"，淘宝的官网下面看到写了这么一句话：

由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取)，系统无法提供该页面的内容

解释

Robots协议(也称为爬虫协议、机器人协议等)，全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面时可以抓取的，哪些页面是不可以抓取的。Robots协议是一个道德层面上的约定，作为爬虫人员遵守与否完全取决于自己，不会因为有Robots协议而导致网页爬取不下来的情况。

个人观点是，爬取的内容不会被商业利用，仅作为个人练习，是可以不遵守这个协议的(一般来讲，robots协议仅仅只是给搜索引擎看的)

耳听为虚，眼见为实

那么到底什么是robots协议呢？

我们来看一下淘宝的Robots协议，在浏览器输入：https://www.taobao.com/robots.txt

一般来讲，大多数网站的Robots协议都是跟在网站的根目录下的，像淘宝就是在网站的根目录后面接上robots.txt。

看一下：

淘宝的robots协议

简单解读一下：

User-agent : 即是谁在访问，以这里的第一个举例，即Baiduspider，就是百度爬虫机器人。

Allow：即允许什么，以这里的第一个举例，即/Article,就是说淘宝网站允许百度爬虫机器人爬取其文章页面，即https://www.taobao.com/Article这个链接可以被百度爬虫爬取，

下面的都是同理，

Disallow就是不让爬什么，这里的第一个就是/product/

简单分析一下就知道，百度可以爬取淘宝的页面可以说极少了

以上就是Robots协议。

个人博客地址：www.limiao.tech

个人WX公众号：TechBoard

欢迎访问~

网友评论

本文标题：详解robots协议以及其作用

本文链接：https://www.haomeiwen.com/subject/qbmchqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

详解robots协议以及其作用

什么是robots协议

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python原教

大数据爬虫Python AI Sql

详解robots协议以及其作用

什么是robots协议

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Python原教

大数据 爬虫Python AI Sql

大数据爬虫Python AI Sql