美文网首页
Robots协议

Robots协议

作者: Eric苏离 | 来源:发表于2017-03-01 01:01 被阅读140次

    1 Robots Exclusion Standard 网络爬虫排除标准

    作用: 网站告知网络爬虫哪些页面可以抓取, 哪些不行
    形式: 在网站的<strong>根目录</strong>下的robots.txt文件,在这个文件中, 写明了哪些目录是可以被允许被爬取的, 哪些是不被允许的


    examples:
    **** https://www.jd.com/robots.txt ****
    **** https://www.baidu.com/robots.txt ****
    ****http://www.qq.com/robots.txt ****
    ****http://news.qq.com/robots.txt ****
    **** http://www.moe.edu.cn/robots.txt(无robots协议) ****
    etc.

    <em>如果一个网站不提供robots协议, 那么默认为该网站可以被任何爬虫爬取其资源</em>

    2 robots协议遵守方式

    网络爬虫: 自动或者人工识别robots.txt文件, 在进行内容爬取
    约束性: 可以不遵守, 但是要承担响应的法律责任

    相关文章

      网友评论

          本文标题:Robots协议

          本文链接:https://www.haomeiwen.com/subject/rxafgttx.html