亚马逊页面商品的爬取

作者: 梅不烦 | 来源:发表于2018-06-15 12:19 被阅读0次

案例集锦
1.python爬虫实例
网络爬虫实战(5个案例)
requests库网络爬取实战
入门级爬虫（2）
亚马逊页面商品的爬取
Python实战计划学习笔记（7）爬取58同城信息
Python学习笔记7——爬取大规模数据
利用Python爬取淘宝商品信息
入门级爬虫-爬取京东商品评价

一、前言

刚才爬取了京东商品的页面，

很多网页对爬虫有所限制，或者通过Robots协议或者通过requests headers来限制。

下图为亚马逊的robots协议，通过www.amazon.cn/robots.txt进行查看。

可以看出亚马逊对爬虫很限制。所以需要对其headers进行更改，使亚马逊识别不出是用python程序进行访问的。

user-agent:*

disallow:/

这是禁止所有爬虫访问任何目录的代码

user-agent:*

disallow:

这是允许所有爬虫访问任何目录的代码

二、进行爬取

先在亚马逊网页上--F12--network--headers ---找到user-agent.

三、全代码

更改头部信息

kv = {

"User - Agent":"Mozilla / 5.0(Windows NT 10.0; WOW64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 67.0 .3396.79 Safari / 537.36"

}

kv 是任意的名字，你也可以用headers。

"User - Agent":"Mozilla / 5.0(Windows NT 10.0; WOW64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 67.0 .3396.79 Safari / 537.36"就是你查找的headers。

print(r.status_code)验证是否可以访问网络。

四、小结

很多网站对爬虫有所限制，可以先看一下该网站的robots协议，就是某个网站/robots.tex。例如www.baidu.com/robots.txt，从而查看哪些是可以用爬虫访问的。

通过更改头部信息就可以进行访问了。

网友评论

本文标题：亚马逊页面商品的爬取

本文链接：https://www.haomeiwen.com/subject/auvpeftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

亚马逊页面商品的爬取

一、前言

二、进行爬取

三、全代码

四、小结

相关文章

案例集锦

1.python爬虫实例

网络爬虫实战(5个案例)

requests库网络爬取实战

入门级爬虫（2）

亚马逊页面商品的爬取

Python实战计划学习笔记（7）爬取58同城信息

Python学习笔记7——爬取大规模数据

利用Python爬取淘宝商品信息

入门级爬虫-爬取京东商品评价

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读