美文网首页
scrapy京东天猫数据抓取

scrapy京东天猫数据抓取

作者: linqihao | 来源:发表于2017-12-07 17:28 被阅读0次

电商数据抓取应该是爬虫的必练手项目了吧,本文抓取京东跟天猫蓝牙耳机,并做简单分析!!!

github源码

共抓取1w条京东连接以及天猫链接

本次共爬取item数量为17947基本将类目下的所有sku抓下来。

对比天猫以及亚马逊美国站点类目sku总数,我们可以看出京东的商品数量接近亚马逊,且远高天猫的5000多个

进一步看三个平台下各个价格区间的sku数量分布

注:上图中0-100区间中京东的sku数量超过一万

由上图我们可以看出天猫与京东的sku数量是随着价格递减的,而亚马逊的sku主要集中于100-200元之间。

京东店铺类型分类,其中61.7%为专营店,31.9%旗舰店,海外购店为4.6%,京东自营为1.8%

类型店铺累计评论数

将店铺下的商品评分与评论数相乘作为店铺评分,看排前20名的店铺直方图

前20名品牌评分排名

提取天猫以及京东数据,根据价格区间以及价格,形成小提琴图来看各个价格区间的价格分布

分析上面的两张图片,

京东方面:

价格区间为0-100时,三个峰值分别位于100,90,80,即100以下的价格主要集中于80以上,价格区间为100-250时,价格主要集中于150以及200区间,价格区间为250-500时,价格主要集中于300,400,500三个峰段,淘宝同理。

提取各个sku累计评论数量,做出环图

其中92%的sku累计评论是低于1000的,5%sku位于1000-5000评论数区间,1.4%sku位于5000-10000区间,1.6%sku大于10000

选取评论数超过5000的sku做价格散点图

取评论数超过1000的sku做条形图

将价格x评论数作为销售额评分,得分最高sku为

累计最高评论数的sku为

评论数超过1000的sku中,好评率最高的sku为

在抓取的评论中看会员等级分布

各个价格区间

词云图

评论标签中看累计评论数排名前十标签

可以看出大部分消费者最注重耳机的音质,通话清晰以及配对简单,外观元素放在最后考虑

看排前7名的颜色,消费者的选择排名

黑色是最好卖的颜色,白色与土豪金基本持平

相关文章

网友评论

      本文标题:scrapy京东天猫数据抓取

      本文链接:https://www.haomeiwen.com/subject/lhcjixtx.html