摘要

robots协议全称是“网络爬虫排除标准”，它意在规范爬虫程序的行为。一个网站的robots协议就是在告诉
爬虫程序什么页面可以爬取，什么页面不可以爬虫，以及禁止某些爬虫程序等。不过robots协议并没有
形成法律的规范，仍然属于道德层面的约束。

robots协议的内容规范

User-agent: 表明爬虫名字
Disallow: 表示禁止爬取的页面
Allow: 表示允许爬取的页面
Sitemap: 表示网站地图

*: 表示任意长度的任意字符
$: 表示结尾
/: 表示这级文件夹下的所有文件
可以发现，这和这正则表达式有点相似，不过，?和.没有特别的含义，/也不需要转义

有关页面的写法：
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg $禁止抓取网页所有的.jpg格式的图片 Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。 Allow: /cgi-bin/　这里定义是允许爬寻cgi-bin目录下面的目录 Allow: /tmp 这里定义是允许爬寻tmp的整个目录 Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图告诉爬虫这个页面是网站地图

常用的写法：

允许所有的爬虫爬取任何页：
User-agent: *
Disallow:
禁止除特定爬虫A以外的爬虫爬取页面：
User-agent: A
Disallow:
User-agent: *
Disallow: /

查看一个网站的robots协议
在浏览器中网址一栏网站的根目录加上/robots.txt即可，如https://www.baidu.com/robots.txt表示访问百度的robots协议

解析robots.txt

通过urllib.robotparser模块解析robots协议
解析过程分为：

创建一个RobotFileParser对象
通过对象的set_url()方法获取robots.txt
读取robots.txt的内容
这样创建的RobotFileParser对象就与这个robots.txt的内容联系起来了
判断某个User-agent(爬虫名)是否可以爬取某个url，比如Spider1，是否可以爬取url1，可以使用：
can_fetch(Spider1, url1)

说明

以下代码默认已导入robotparser模块
<code lang="python">
from urllib import robotparser
</code>

下面列举一个例子：
判断BadSipder爬虫是否可以爬取https://www.baidu.com，代码如下：

    def parseRobots(url):
    '获取解析robots.txt的RobotFileParser对象'
    try:
        rp = robotparser.RobotFileParser()
        rp.set_url(url)  # 获取robots.txt
        rp.read()  # 读取robots.txt
        return rp
    except:
        return "出现异常"
    url = "https://baidu.com/robots.txt"
    rp = parseRobots(url)
    user_agent = "Badspider"
    web = "https://baidu.com"
    print(rp.can_fetch(user_agent, web))