Robots.txt详解

作者: 小石读史 | 来源:发表于2020-11-03 11:43 被阅读0次

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

Robots作用:优化蜘蛛爬行提高爬行效率,减小带宽消耗,防止双收录

查看网站是否有robots.txt,可以在浏览器输入网址/robots.txt进行查看

如何在自己的网站设置robots.txt

Robots.txt语法详解

在冒号后面要加一个空格,否则不生效!

禁止搜索引擎收录动态的URL:Disallow: *?*

例如网站后台不想被收录,可以这样写:Disallow: /adm*

允许收录html后缀的页面应该怎么写:Allow: .html$

网站案例:

可以使用百度站长平台去检查robots.txt是否有效

相关文章

网友评论

    本文标题:Robots.txt详解

    本文链接:https://www.haomeiwen.com/subject/yahlvktx.html