Robots.txt详解

作者: 小石读史 | 来源:发表于2020-11-03 11:43 被阅读0次

    Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。

    Robots作用:优化蜘蛛爬行提高爬行效率,减小带宽消耗,防止双收录

    查看网站是否有robots.txt,可以在浏览器输入网址/robots.txt进行查看

    如何在自己的网站设置robots.txt

    Robots.txt语法详解

    在冒号后面要加一个空格,否则不生效!

    禁止搜索引擎收录动态的URL:Disallow: *?*

    例如网站后台不想被收录,可以这样写:Disallow: /adm*

    允许收录html后缀的页面应该怎么写:Allow: .html$

    网站案例:

    可以使用百度站长平台去检查robots.txt是否有效

    相关文章

      网友评论

        本文标题:Robots.txt详解

        本文链接:https://www.haomeiwen.com/subject/yahlvktx.html