美文网首页
scrapy京东天猫数据抓取

scrapy京东天猫数据抓取

作者: linqihao | 来源:发表于2017-12-07 17:28 被阅读0次

    电商数据抓取应该是爬虫的必练手项目了吧,本文抓取京东跟天猫蓝牙耳机,并做简单分析!!!

    github源码

    共抓取1w条京东连接以及天猫链接

    本次共爬取item数量为17947基本将类目下的所有sku抓下来。

    对比天猫以及亚马逊美国站点类目sku总数,我们可以看出京东的商品数量接近亚马逊,且远高天猫的5000多个

    进一步看三个平台下各个价格区间的sku数量分布

    注:上图中0-100区间中京东的sku数量超过一万

    由上图我们可以看出天猫与京东的sku数量是随着价格递减的,而亚马逊的sku主要集中于100-200元之间。

    京东店铺类型分类,其中61.7%为专营店,31.9%旗舰店,海外购店为4.6%,京东自营为1.8%

    类型店铺累计评论数

    将店铺下的商品评分与评论数相乘作为店铺评分,看排前20名的店铺直方图

    前20名品牌评分排名

    提取天猫以及京东数据,根据价格区间以及价格,形成小提琴图来看各个价格区间的价格分布

    分析上面的两张图片,

    京东方面:

    价格区间为0-100时,三个峰值分别位于100,90,80,即100以下的价格主要集中于80以上,价格区间为100-250时,价格主要集中于150以及200区间,价格区间为250-500时,价格主要集中于300,400,500三个峰段,淘宝同理。

    提取各个sku累计评论数量,做出环图

    其中92%的sku累计评论是低于1000的,5%sku位于1000-5000评论数区间,1.4%sku位于5000-10000区间,1.6%sku大于10000

    选取评论数超过5000的sku做价格散点图

    取评论数超过1000的sku做条形图

    将价格x评论数作为销售额评分,得分最高sku为

    累计最高评论数的sku为

    评论数超过1000的sku中,好评率最高的sku为

    在抓取的评论中看会员等级分布

    各个价格区间

    词云图

    评论标签中看累计评论数排名前十标签

    可以看出大部分消费者最注重耳机的音质,通话清晰以及配对简单,外观元素放在最后考虑

    看排前7名的颜色,消费者的选择排名

    黑色是最好卖的颜色,白色与土豪金基本持平

    相关文章

      网友评论

          本文标题:scrapy京东天猫数据抓取

          本文链接:https://www.haomeiwen.com/subject/lhcjixtx.html