美文网首页
网络爬虫的分类和问题以及Robots协议

网络爬虫的分类和问题以及Robots协议

作者: Epimenides | 来源:发表于2020-05-17 18:59 被阅读0次

网络爬虫的分类和问题以及Robots协议

网页爬虫的尺寸:

  • 爬取网页,玩转网页:小规模,数据量小,爬取速度不敏感。(Request库足够)
  • 爬取网站 爬取系列网站:中规模,数据量较大,爬取速度敏。(Scrapy库)
  • 爬取全网:大规模,搜索引擎,爬取速度关键;定制开发(如Google,百度,Bing这一类搜索引擎)

网络爬虫引发的问题:

  • 网络爬虫的骚扰:受限于编写水平和目的,网络爬虫将会为Web服务器带来巨大的资源开销
  • 网络爬虫的法律风险:服务器上的数据有产权归属,网络爬虫获取数据后牟利将带来法律风险
  • 网络爬虫泄露隐私:网络爬虫可能具备突破简单访问控制的能力,获得被保护数据从而泄露个 人隐私

网络爬虫的限制:

  1. 来源审查:判断User­Agent进行限制 :

    • 检查来访HTTP协议头的User­Agent域,只响应浏览器或友好爬虫的访问 发布公告:Robots协议
  2. 发布公告:Robots协议

    • 告知所有爬虫网站的爬取策略,要求爬虫遵守

    • Robots协议的内容简介:

      • Robots Exclusion Standard (网络爬虫排除标准 )

        1. 作用:网站告知网络爬虫哪些页面可以抓取,哪些不行

        2. 一般位置:在网站的根目录下放置robots.txt文件

          Google的robots协议

          bing的robots协议

          baidu的robots协议

        京东网站下的robots.txt文件:

        User-agent: * 
        Disallow: /?* 
        Disallow: /pop/*.html 
        Disallow: /pinpai/*.html?* 
        User-agent: EtaoSpider 
        Disallow: / 
        User-agent: HuihuiSpider 
        Disallow: / 
        User-agent: GwdangSpider 
        Disallow: / 
        User-agent: WochachaSpider 
        Disallow: /
        

        Robots协议的基本语法:

        User-agent: *                     # 注释:  
        Disallow: /?*                     *代表所有 
        Disallow: /pop/*.html            /代表根目录
        

        其中:
        User-agent 指明那些爬虫可以爬取

        Disallow则是不允许爬虫访问的资源的目录

      Robots协议的遵守方式:
      1. 自动或人工识别robots.txt,再进行内容爬取
      2. Robots协议是建议但非约束性,网络爬虫可以不遵守,但存在法律风险

相关文章

  • 网络爬虫的分类和问题以及Robots协议

    网络爬虫的分类和问题以及Robots协议 网页爬虫的尺寸: 爬取网页,玩转网页:小规模,数据量小,爬取速度不敏感。...

  • 人生不得已——Python爬虫 robots协议

    关于robots协议 Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots ...

  • Robots协议

    好的网络爬虫,首先需要遵守Robots协议。Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除...

  • 亚马逊robots协议解析

    1.robots协议 Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots ...

  • 网络爬虫排除标准——robots协议

    Robots协议 “网络爬虫排除标准”(Robots Exclusion Protocol)也称为爬虫协议、机器人...

  • 关于购物网站及网页小游戏的robots协议

    Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion P...

  • robots

    Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion P...

  • 谷歌:爬虫协议与标准规范

    Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion P...

  • Robots.txt详解

    Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion P...

  • 认识robots协议

    robots协议的作用: Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robot...

网友评论

      本文标题:网络爬虫的分类和问题以及Robots协议

      本文链接:https://www.haomeiwen.com/subject/qjnsohtx.html