美文网首页
Robots 协议

Robots 协议

作者: 汪小鱼 | 来源:发表于2021-10-06 10:27 被阅读0次

    受限于编写水平和目的,网络爬虫将会为 web 服务器带来巨大的资源开销。服务器上的数据有产权归属,网络爬虫获取数据后牟利将带来法律风险。网络爬虫可能具备突破简单访问控制的能力,获得被保护数据从而泄露个人隐私。

    网络爬虫的限制

    • 来源审查:判断 User-Agent 进行限制
      检查来访 HTTP 协议头的 User-Agent 域,只响应浏览器或友好爬虫的访问
    • 发布公告:Robots 协议
      告知所有爬虫网站的爬取策略,要求爬虫遵守

    Robots协议

    Robots Exclusion Standard 网络爬虫排除标准

    Robots 协议

    作用:网站告知网络爬虫哪些页面可以抓取,哪些不行
    形式:在网站根目录下的robots.txt文件
    案例:京东的Robots协议 https://www.jd.com/robots.txt

    Robots协议的遵守方式

    网络爬虫:自动或人工识别 robots.txt,再进行内容爬取
    Robots 协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险

    协议遵守方式

    类人行为是指爬虫以类似普通用户的访问方式访问资源

    相关文章

      网友评论

          本文标题:Robots 协议

          本文链接:https://www.haomeiwen.com/subject/fhgwnltx.html