美文网首页
Robots协议

Robots协议

作者: 天道酬勤_FUN | 来源:发表于2017-04-18 11:15 被阅读0次

    Robots Exclusion Standard 网络爬虫排除标准

    作用:网站告知网络爬虫哪些页面可以抓取,哪些不行。
    形式:在网站根目录下的robots.txt文件。

    案例

    京东的Robots协议
    百度的Robots协议
    新浪新闻的Robots协议
    qq的Robots协议
    qq新闻的Robots协议
    国家教育部的Robots协议(无robots协议)

    Robots协议基本语法

    # 注释:*代表所有,/代表根目录
    User-agent: *
    Disallow: /

    Robots的遵守方式

    Robots协议的使用

    网络爬虫:自动或人工识别robots.txt,再进行内容爬取。
    约束性:Robots协议是建议但非约束性,网络爬虫可以不遵守,

    相关文章

      网友评论

          本文标题:Robots协议

          本文链接:https://www.haomeiwen.com/subject/aojfzttx.html