美文网首页
亚马逊页面商品的爬取

亚马逊页面商品的爬取

作者: 梅不烦 | 来源:发表于2018-06-15 12:19 被阅读0次

一、前言

刚才爬取了京东商品的页面,

很多网页对爬虫有所限制,或者通过Robots协议或者通过requests headers来限制。

下图为亚马逊的robots协议,通过www.amazon.cn/robots.txt进行查看。

可以看出亚马逊对爬虫很限制。所以需要对其headers进行更改,使亚马逊识别不出是用python程序进行访问的。

user-agent:*

disallow:/

这是禁止所有爬虫访问任何目录的代码

user-agent:*

disallow:

这是允许所有爬虫访问任何目录的代码

二、进行爬取

先在亚马逊网页上--F12--network--headers ---找到user-agent.

三、全代码

更改头部信息

kv = {

"User - Agent":"Mozilla / 5.0(Windows NT 10.0; WOW64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 67.0 .3396.79 Safari / 537.36"

      }

kv 是任意的名字,你也可以用headers。

"User - Agent":"Mozilla / 5.0(Windows NT 10.0; WOW64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 67.0 .3396.79 Safari / 537.36"就是你查找的headers。


print(r.status_code)验证是否可以访问网络。

四、小结

很多网站对爬虫有所限制,可以先看一下该网站的robots协议,就是某个网站/robots.tex。例如www.baidu.com/robots.txt,从而查看哪些是可以用爬虫访问的。

通过更改头部信息就可以进行访问了。

相关文章

  • 案例集锦

    案例一: 京东商品页面的爬取 案例二:亚马逊商品页面的爬取 由于amazon禁止python访问,要把header...

  • 1.python爬虫实例

    1.京东商品页面的爬取 2.亚马逊商品页面的爬取 用headers字段,让代码模拟浏览器向亚马逊服务器提供请求。 ...

  • 网络爬虫实战(5个案例)

    案例1:京东商品页面的爬取 商品链接 案例2:亚马逊商品页面的爬取 商品链接 案例3:百度360关键词提交 搜索引...

  • requests库网络爬取实战

    @[toc] 实例1:京东商品页面的爬取 实例2:亚马逊商品页面的爬取 需要伪造请求头 实例3:百度/360搜索关...

  • 入门级爬虫(2)

    requests库入门实操我的个人博客 京东商品页面爬取 亚马逊商品页面的爬取 百度/360搜索关键字提交 IP地...

  • 亚马逊页面商品的爬取

    一、前言 刚才爬取了京东商品的页面, 很多网页对爬虫有所限制,或者通过Robots协议或者通过requests h...

  • Python实战计划学习笔记(7)爬取58同城信息

    任务简述 爬取58同城某页面列表页中,除了转转、推广商品之外的正常商品 要求爬取的商品信息包括:类目标题发帖时间价...

  • Python学习笔记7——爬取大规模数据

    我们在爬取数据时,往往是连续爬取上百个页面,本篇以爬取赶集网为例,爬取大规模的数据。步骤如下: 爬取1级商品链接 ...

  • 利用Python爬取淘宝商品信息

    本文所实现的爬取淘宝商品信息将实现以下功能:对于某个类别的淘宝商品的页面 爬取这个商品名称,比如“手机”搜索结果下...

  • 入门级爬虫-爬取京东商品评价

    实现功能 输入商品名称,并爬取第一页的商品的前100条评论 分析数据来源 爬取搜索页面 随便搜索一个商品,打开ne...

网友评论

      本文标题:亚马逊页面商品的爬取

      本文链接:https://www.haomeiwen.com/subject/auvpeftx.html