robots协议分析——以亚马逊（中国）为例

作者: Hana_5f9b | 来源:发表于2018-05-13 23:42 被阅读0次

robots协议分析——以亚马逊（中国）为例
robots.txt学习笔记----以亚马逊&Githu
Python-解析Robots文件
4. Urllib -- urllib.robotparser
亚马逊robots协议解析
分析Robots协议
人生不得已——Python爬虫 robots协议
亚马逊网站robots协议解读
亚马逊 robots.txt 文件解析
《Python网络爬虫》2.2 Robots协议

搜索引擎通过一种程序robot（又称spider），自动访问互联网上的网页并获取网页信息。您可以在您的网站中创建一个纯文本文件robots.txt，在这个文件中声明该网站中不想被robot访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。

2、robots.txt文件放在哪里?

robots.txt文件应该放在网站根目录下。举例来说，当robots访问一个网站（比如http://www.abc.com）时，首先会检查该网站中是否存在http://www.abc.com/robots.txt这个文件，如果机器人找到这个文件，它就会根据这个文件的内容，来确定它访问权限的范围。

3、robots.txt文件的格式

"robots.txt"文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示：":"。在该文件中可以使用#进行注解，具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始，后面加上若干Disallow行。

在robots.txt文件中，最基本的格式为User-agent 和 Disallow ：

User-agent:

该项的值用于描述搜索引擎robot的名字。

在"robots.txt"文件中，如果有多条User-agent记录说明有多个robot会受到该协议的限制。如果该项的值设为*，则该协议对任何机器人均有效。

Disallow :

该项的值用于描述不希望被访问到的一个URL，这个URL可以是一条完整的路径，也可以是部分的，任何以Disallow开头的URL均不会被robot访问到。

任何一条Disallow记录为空，说明该网站的所有部分都允许被访问。如果"/robots.txt"是一个空文件，则对于所有的搜索引擎robot，该网站都是开放的。

来源：Robots协议详解

二、亚马逊网站robots.txt分析

中国亚马逊：https://www.amazon.cn/robots.txt

User-agent

User-agent: *

User-agent:*表示该协议对任何机器人均有效。

中国亚马逊没有对爬虫对区别限制，而是仅设置了一个所有爬虫共同遵循的规则。

Allow

Allow: /wishlist/universal*

Allow: /wishlist/vendor-button*

Allow: /wishlist/get-button*

Disallow: /gp/wishlist/

Allow: /gp/wishlist/universal*

Allow: /gp/wishlist/vendor-button*

Allow: /gp/wishlist/ipad-install*

允许爬取的内容有六项，均与心愿单相关。

网页截图（https://www.amazon.cn/wishlist）

Disallow

一点说明：

"Disallow: /help"对/help.html和/help/index.html都不允许搜索引擎访问。

"Disallow:/help/"允许robot访问/help.html，但不能访问/help/index.html。

以下选取我能看懂的项目：

Disallow: /buycar    购物车

Disallow: /gp/css/homepage.html    我的账户

Disallow:/gp/help/contact-us/general-questions.html*?type&email&skip=true    联系客服

Disallow:/gp/help/reports/infringement/jquery/handle-notice-submit.html    系统错误提示

Disallow: /gp/twitter/    推特

Disallow: /gp/history    历史记录

Disallow: /dp/e-mail-friend/    好友

Disallow: /doc    文件

Disallow: /gp/voting/    投票

Disallow: /dp/product-availability/    产品信息

由此可见，亚马逊的爬虫限制主要有几个方面：产品信息、用户隐私信息、分享、错误处理等。

我认为其目的有三点：

1、保护网站用户的个人隐私信息

2、保护网站的关键信息，保证其商业运转

3、屏蔽没有必要爬取的错误处理数据，降低网站被爬取时的服务器负荷

网友评论

本文标题：robots协议分析——以亚马逊（中国）为例

本文链接：https://www.haomeiwen.com/subject/kyrrdftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

robots协议分析——以亚马逊（中国）为例

目录：

一、Robots协议简介

二、亚马逊网站robots.txt分析

一、Robots协议简介

二、亚马逊网站robots.txt分析

相关文章