Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
Robots作用:优化蜘蛛爬行提高爬行效率,减小带宽消耗,防止双收录
查看网站是否有robots.txt,可以在浏览器输入网址/robots.txt进行查看
如何在自己的网站设置robots.txt

Robots.txt语法详解
在冒号后面要加一个空格,否则不生效!



禁止搜索引擎收录动态的URL:Disallow: *?*


例如网站后台不想被收录,可以这样写:Disallow: /adm*


允许收录html后缀的页面应该怎么写:Allow: .html$
网站案例:


可以使用百度站长平台去检查robots.txt是否有效
网友评论