什么是robots协议
先看图
淘宝的robots协议我们会发现,这张图中显示的是,百度搜索"淘宝",淘宝的官网下面看到写了这么一句话:
由于该网站的robots.txt文件存在限制指令(限制搜索引擎抓取),系统无法提供该页面的内容
解释
Robots协议(也称为爬虫协议、机器人协议等),全称是"网络爬虫排除标准"(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面时可以抓取的,哪些页面是不可以抓取的。Robots协议是一个道德层面上的约定,作为爬虫人员遵守与否完全取决于自己,不会因为有Robots协议而导致网页爬取不下来的情况。
个人观点是,爬取的内容不会被商业利用,仅作为个人练习,是可以不遵守这个协议的(一般来讲,robots协议仅仅只是给搜索引擎看的)
耳听为虚,眼见为实
那么到底什么是robots协议呢?
我们来看一下淘宝的Robots协议,在浏览器输入:https://www.taobao.com/robots.txt
一般来讲,大多数网站的Robots协议都是跟在网站的根目录下的,像淘宝就是在网站的根目录后面接上robots.txt。
看一下:
淘宝的robots协议简单解读一下:
User-agent
: 即是谁在访问,以这里的第一个举例,即Baiduspider
,就是百度爬虫机器人。
Allow
:即允许什么,以这里的第一个举例,即/Article,就是说淘宝网站允许百度爬虫机器人爬取其文章页面,即https://www.taobao.com/Article
这个链接可以被百度爬虫爬取,
下面的都是同理,
Disallow
就是不让爬什么,这里的第一个就是/product/
简单分析一下就知道,百度可以爬取淘宝的页面可以说极少了
以上就是Robots协议。
个人博客地址:www.limiao.tech
个人WX公众号:TechBoard
欢迎访问~
网友评论