

























一、数据集
天池 baby goods交易数据集
https://tianchi.aliyun.com/dataset/dataDetail?dataId=45
![]()
二、清洗数据及特征工程
清洗数据
数据集没有缺失,商品描述的特征意义不明删除此列

购买量这里最大是10000,仅有一个,还有一些大于100的值,正常是1~4,所以明显会影响均值,但是这是自动记录的数据,不会是人工输入错误。所以此类数据也要保留。排序查看之后部分数据单次购买量大于90,猜想可能是线下或者经销商大批量进货,普通用户不太可能一次买100多件商品。

特征构建
对于购买量大于90的数据新增一列特征:是否商铺购买
时间的特征列创建多个新特征年、月、日、上半下半月、上旬中旬下旬等等
将婴儿的年龄和购买时间进行计算,算出购买时当前婴儿的年龄。
计算各用户各商品的复购率
三、分析思路
首先根据业务构建一个简单的用户购买流程作为参考,可以通过这个流程看到你所分析的内容是属于哪个模块,与哪些有相关关系。也可以作为分解指标的参考。

预想思路

四、数据分析
4.1 婴儿用品销量逐年上涨
除去商铺进货类购买外,每年销量逐年上涨,根据2013年和2014年2个完整周期的数据可以发现,销售量有周期性,旺季为5月、11月,淡季为1、2月

通过逻辑树方法进行分解,销售量=独立购买人数×平均购买量
购买量的提升在于购买人数的贡献,而非人均购买的提升。

上升的人中主要为0~2岁婴儿家庭的贡献

逐年增长也得益于二孩政策、导致了生育父母显著增加。
2011年11月,中国各地全面实施双独二孩政策,2013年12月,中国实施单独二孩政策,2015年10月,中国共产党第十八届中央委员会第五次全体会议公报指出坚持计划生育基本国策,积极开展应对人口老龄化行动,实施全面二孩政策。
所以,婴儿商品想要提升销售量应该以拉新为主,主要人群是孩子0~2岁或准备二胎的家长,同时做好维护,避免老客户的流失。
4.1.1 旺季小高峰的原因 - 5月和11月
下钻查看后,5月18日到5月22日为一个购买周期,查询发现2013,2014年淘宝5.20“告白季”有促销活动同时这也是一个约定俗成的节日,活动周期也为18日到22日。
11月中,11日是淘宝大促活动,购买人数也是有大幅上涨。


4.1.2淡季销量过低原因 - 1~2月
时间分别为2013年的2月2日到14日(12天)和2014年的1月28日到2月2日(5天)
这两段时间均为春节假期,假期前卖家一般会提前7到10天停发快递,假期中快递也会停运,但是随着电商和快递的发展,停运时间在明显缩短。在春节1~3周会有一个囤货小高峰,可以抓紧时间在这段时候促销。

4.2 用户画像
性别、年龄属性
性别
人数上没有差别

性别与购买量的关系

通过主要各二级分类商品各性别购买比例可以验证

男女婴在购买的商品上也有区别


女婴的家长购买婴儿用品的数量更多,男女婴家长购买种类上有区别,有些商品只有女婴才会买,对于这类商品,可以利用家长心理,在商品页文案、设计等方面偏向女婴家长,以期望增加销售量
年龄

主要销售量贡献的年龄
80%为0~2岁

各年龄下购买商品的变化

可以根据婴儿年龄,随着婴儿的成长年龄,按年推送不同类型的产品信息,提高用户购买量
0岁50018831、50013187、50006602等
1岁50018825、50012456、50010558等
2岁50013636、50018831、211122等
3岁50013636、50016602、50013207等
4.2.1 购买时间与销量/购买人数的关系
根据2013、2014两年完整周期下的购买人数的情况,周内购买人数比周末要多,而购买数量不明显。
对于促销、广告信息推送等,在周内开展效果可能比较好。(验证可以根据历史活动情况去看周内每天推送响应的人数等指标,还有应该在哪个时段推送等)

4.2.2 销量和SPU的关系
将一级分类汇总后,销量和款呈线性关系,随着商品种类的越多,销量也会越好,公司也就有钱去开发更多的款。

4.2.3 用户购买连带商品分析
预想将数据集按照日期、用户ID和商品二级分类聚合。
使其变成同一天每个用户购买的所有商品变成一个购物篮。但是数据中这类数据只有一条。不能开展。

4.3商品销量
类型28在商家进货中占数量最高,而50008168这个种类,用户购买量最高。可以看到商家进货销量占比不低,对于商家类人数不多可以单独做运营规划,可以根据进货节点5,8,10,11月对高购买量用户(单次>90)做优惠活动,带动销量。
大类销售排行

小类销售排行

商家类销售量占比

进货节点

4.3.1 各产品随时间的变化情况
28这个类目随着时间,销售量在渐渐增加。
细化可以看到这个一级分类下,有五个二级分类的商品增长明显,50002524、50005953、50016006、50019308、50023663这五种。对于销售量来说,这五种商品是增长机会点,应该增加备货比重,并进一步观察成为爆款的潜力。


4.4 各商品复购情况
此数据集中复购的商品过少,无法做出结论

5 可以为业务带来的其他价值
5.1 通过用户购买的商品预测婴儿年龄
由于数据集的特征中有效的特征不多,使用默认特征运行的准确率为0.43
之后,将产品描述中所有的属性进行提取,扩展到30000+特征,使用SelectFromModel进行降维到1000+特征,尝试了随机森林、XGB、SVM等各种模型,随机森林的效果较好,调参后最高也只达到了0.48的预测准确率,效果不佳
预测婴儿年龄的目的是精准营销,代替方法可以购物篮分析,找关联购买商品也可以起到类似的提高销售量的效果。

6 结论
1、总体销量逐年上涨,上涨原因是0~2岁婴儿家长通过淘宝来购买婴儿用品的用户增加,而人均购买量没有变化。
想要提升销售量应该以拉新为主,目标为0~2岁的家长,同时做好维护避免老客户流失。
旺季(5、11月):重要的活动日期为5月18~22日和11月11日前后一周内,跟随大促活动可以有效提升销售量。
淡季(1、2月):在春节假期前1~3周有囤货小高峰,可以利用这段时间做春节前的促销。
2、女婴的家长购买婴儿用品的数量更多,男女婴家长购买种类上有区别,有些商品只有女婴才会买,对于这类商品,可以利用家长心理,在商品页文案、设计等方面偏向女婴家长,以期望增加销售量
不同年龄段购买的物品不同,可以根据婴儿年龄,随着婴儿的成长年龄,提前推送不同类型的产品信息,同时,对于促销、广告信息推送等,在周内开展效果更好,提升SPU数量也有助于提升销量。
类型28在商家进货中占数量最高,而50008168这个种类,用户购买量最高。商家进货类用户销量占比不低,对于此类用户人数不多但人均销量贡献很高,可以根据进货节点5,8,10,11月对高购买量用户(单次>90)做优惠活动,带动销量。
3、随着时间的变化,类型28下销量在增加,**
50002524、50005953、50016006、50019308、50023663这五种商品每年增速明显,是增长机会点**,应该增加备货比重,并进一步观察成为爆款的潜力
网友评论