美文网首页
爬虫 京东(一)

爬虫 京东(一)

作者: 煎炼 | 来源:发表于2019-02-16 19:16 被阅读0次

说一下京东,作为主流的电商网站,里面的商品还是很齐全的,而且京东也很友好,希望看到这篇文章的小伙伴注意下自己的访问频率,善待京东服务器。

下面开始进入正题  。

https://search.jd.com/Search?keyword=%E5%A5%B3%E8%A3%85&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E5%A5%B3%E8%A3%85&cid2=1343&page=1&s=1&click=0

以这个网页为例。

下一页的链接还是很容易就能找到规律的。

page=页码数*2-1,s=(页码数-1)*60+1

这里就不详细说明了,这次主要说如何获取一页的全部商品。

前面的三十个商品可以请求当前链接获得

import requests

headers = {

"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"

}

url ="https://search.jd.com/Search?keyword=%E5%A5%B3%E8%A3%85&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E5%A5%B3%E8%A3%85&cid2=1343&page=1&s=1&click=0"

response = requests.get(url, headers=headers)

后面的三十个链接就需要另外请求才能获得

首先打开开发者模式,将开发者模式里面的数据清空,然后选到js上面

1-1

然后向下滚动滚动条,当滚动条滚动到下面的商品的时候就会更新出来几条数据

1-2

这里面的数据就是我们需要的后三十条数据了。

链接看起来很长,其实可以简化的

show_items可以删掉了,tpl也可以删掉,其他的保留

然后就成这样了

https://search.jd.com/s_new.php?keyword=%E5%A5%B3%E8%A3%85&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E5%A5%B3%E8%A3%85&cid2=1343&page=2&s=27&scrolling=y&log_id=1550313966.86235

然后我们直接请求是得不到我们想要的数据的

1-3

因为我们的请求头缺少参数,需要添加参数,网页会判断这个请求是从哪个链接发送的

headers = {

"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36",

"referer": url,

}

从而返回相应数据

1-4

后三十条数据已经获取到了

商品数量的控制仍然是page和s,下面放上代码

import requests

url ="https://search.jd.com/Search?keyword=%E5%A5%B3%E8%A3%85&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E5%A5%B3%E8%A3%85&cid2=1343&page=1&s=1&click=0"

# headers = {

#    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36",

# }

# response = requests.get(url, headers=headers).content.decode("utf8")

# print(response)

headers = {

"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36",

    "referer": url

}

url1 ="https://search.jd.com/s_new.php?keyword=%E5%A5%B3%E8%A3%85&enc=utf-8&qrst=1&rt=1&stop=1&vt=2&wq=%E5%A5%B3%E8%A3%85&cid2=1343&page=2&s=27&scrolling=y&log_id=1550313966.86235"

response = requests.get(url1, headers=headers).content.decode("utf8")

print(response)

相关文章

  • 学习网址

    Python开源爬虫项目代码:抓取淘宝、京东、QQ、知网数据 scrapy_jingdong[9]- 京东爬虫。基...

  • 爬虫 京东(一)

    说一下京东,作为主流的电商网站,里面的商品还是很齐全的,而且京东也很友好,希望看到这篇文章的小伙伴注意下自己的访问...

  • 京东商品评论爬虫

    2017/1/2 22:21:40 京东商品评论爬虫 针对京东不同的商品的评价进行爬虫然后再分析 实例:魅族手机魅...

  • 京东商品信息和评价采集爬虫源码

    /*使用javascript编写的爬虫源码,用于爬取京东商品信息和评价。 代码粘贴到神箭手云爬虫平台(http:/...

  • 爬虫--京东登录破解(一)

    本文主要写一下破解京东登录时候滑块的分析步骤,具体代码未做展示.本来以为京东的滑块验证码如果用selenium 直...

  • 采集案例二:采集京东商品详情

    采集系列文章 爬虫软件的介绍及案例说明(文章链接) 案例一:采集京东商品列表页数据(文章链接) ▶案例二:采集京东...

  • 爬虫软件的介绍及案例说明

    采集系列文章 ▶爬虫软件的介绍及案例说明(本文) 案例一:采集京东商品列表页数据(文章链接) 案例二:采集京东商品...

  • 采集案例一:采集京东商品列表页数据

    采集系列文章 爬虫软件的介绍及案例说明(文章链接) ▶案例一:采集京东商品列表页数据(本文) 案例二:采集京东商品...

  • 采集案例三:采集京东商品评论

    采集系列文章 爬虫软件的介绍及案例说明(文章链接) 案例一:采集京东商品列表页数据(文章链接) 案例二:采集京东商...

  • 网络爬虫源码分享

    1.淘宝网商品爬虫源码 2.豌豆荚游戏排行榜爬虫源码 3.尚妆网爬虫源码 4.糗事百科爬虫源码 5.京东商品信息和...

网友评论

      本文标题:爬虫 京东(一)

      本文链接:https://www.haomeiwen.com/subject/tswmeqtx.html