美文网首页
爬虫:robots协议 -- 爬虫的道德约束

爬虫:robots协议 -- 爬虫的道德约束

作者: 灯光树影 | 来源:发表于2018-09-08 20:55 被阅读0次

    摘要

    robots协议全称是“网络爬虫排除标准”,它意在规范爬虫程序的行为。一个网站的robots协议就是在告诉
    爬虫程序什么页面可以爬取,什么页面不可以爬虫,以及禁止某些爬虫程序等。不过robots协议并没有
    形成法律的规范,仍然属于道德层面的约束。

    robots协议的内容规范

    User-agent: 表明爬虫名字
    Disallow: 表示禁止爬取的页面
    Allow: 表示允许爬取的页面
    Sitemap: 表示网站地图

    *: 表示任意长度的任意字符
    $: 表示结尾
    /: 表示这级文件夹下的所有文件
    可以发现,这和这正则表达式有点相似,不过,?和.没有特别的含义,/也不需要转义

    有关页面的写法:
    Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
    Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
    Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
    Disallow: /cgi-bin/.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
    Disallow: /
    ?* 禁止访问网站中所有包含问号 (?) 的网址
    Disallow: /.jpg禁止抓取网页所有的.jpg格式的图片 Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。 Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录 Allow: /tmp 这里定义是允许爬寻tmp的整个目录 Allow: .htm 仅允许访问以".htm"为后缀的URL。
    Allow: .gif$ 允许抓取网页和gif格式图片
    Sitemap: 网站地图 告诉爬虫这个页面是网站地图

    常用的写法:

    1. 允许所有的爬虫爬取任何页:
      User-agent: *
      Disallow:
    2. 禁止除特定爬虫A以外的爬虫爬取页面:
      User-agent: A
      Disallow:
      User-agent: *
      Disallow: /

    查看一个网站的robots协议
    在浏览器中网址一栏网站的根目录加上/robots.txt即可,如https://www.baidu.com/robots.txt表示访问百度的robots协议

    解析robots.txt

    通过urllib.robotparser模块解析robots协议
    解析过程分为:

    1. 创建一个RobotFileParser对象
    2. 通过对象的set_url()方法获取robots.txt
    3. 读取robots.txt的内容
      这样创建的RobotFileParser对象就与这个robots.txt的内容联系起来了
    4. 判断某个User-agent(爬虫名)是否可以爬取某个url,比如Spider1,是否可以爬取url1,可以使用:
      can_fetch(Spider1, url1)

    说明

    以下代码默认已导入robotparser模块
    <code lang="python">
    from urllib import robotparser
    </code>

    下面列举一个例子:
    判断BadSipder爬虫是否可以爬取https://www.baidu.com,代码如下:

        def parseRobots(url):
        '获取解析robots.txt的RobotFileParser对象'
        try:
            rp = robotparser.RobotFileParser()
            rp.set_url(url)  # 获取robots.txt
            rp.read()  # 读取robots.txt
            return rp
        except:
            return "出现异常"
        url = "https://baidu.com/robots.txt"
        rp = parseRobots(url)
        user_agent = "Badspider"
        web = "https://baidu.com"
        print(rp.can_fetch(user_agent, web))    
    

    相关文章

      网友评论

          本文标题:爬虫:robots协议 -- 爬虫的道德约束

          本文链接:https://www.haomeiwen.com/subject/uxoiwftx.html