前言:
随着电子商务业务的快速发展,线上销售逐渐成为主流。淘宝网是中国深受欢迎的网购零售平台,经常网购的人时不时会逛逛淘宝,其留下的足迹就是用户行为,对这些用户行为加以研究以此来分析业务问题。
一、数据背景
1.数据来源:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=46&userId=1
2.数据结构:
本次分析的数据是从数据集中选取包含了2014年11月18日至2014年12月18日之间,10000名随机用户共12256906条行为数据,数据集的每一行表示一条用户行为,共6列。字段如下:
user_id:用户身份
item_id:商品ID
behavior_type:用户行为类型(包含点击、收藏、加购物车、购买四种行为,分别用数字1、2、3、4表示)
user_geohash:地理位置(有空值)
item_category:品类ID(商品所属的品类)
time:用户行为发生的时间
二、确定分析思路
1.整体的用户购物情况分析。
PV(总访问量)、UV(用户数)、日均访问量、有购买行为的用户数量、用户购物情况、复购率是多少?
2.用户行为转化漏斗。
点击>加购物车>收藏>购买 各环节转化率是多少?
3.用户画像分析。
购买率高或低的用户具有什么特征?
4.基于时间维度了解用户的行为习惯。
什么日期/什么时间段用户活跃度高?
5.参照RFM分析模型。
基于RFM分析模型找出有价值的用户?
6.商品销售情况分析。
三、数据整理
数据导入
通过数据库管理工具 Navicat 将数据集导入 MySQL 数据库,数据库表名为user。



四、数据清洗
1.缺失值处理:
由于user_geohash(地理位置)存在大量空值,且被加密处理,所以这里不对用户所在地理位置进行分析。
2.数据一致化处理:
>>>由于 time 字段的时间包含(年-月-日)和小时,为了方便分析,将该字段分成 2 个字段,一个日期列(date)和一个小时列(time)

>>>通过查询表结构,发现date字段数据类型不是日期,所以将其改为date类型


>>>将代表behavior_type(行为类型)的数字更改为指定字符,以方便分析,1-pv,2-fav,3-cart,4-buy

最终数据呈现:

五、数据分析
1.用户整体购物情况
一个月内共有11550581次访问。

1)用户总数
一个月内共有10000个用户浏览过。

2)日均访问量
日均访问量几乎都在30w+到40w+之间,2014年12月11日日均访问量达到46w+,12月12日达到峰值64w+,显而易见双十二活动吸引更多的访问量。

3)有购买行为的用户数量及与总访问的占比
有购买行为的用户共8886位,与总访问量的占比约是0.08%


4)用户购物行为
根据不同用户行为可具体分析,针对性的推送内容,提高转化率。


5)复购率指标:购买次数>=2
有购买行为的用户复购率高达92%

6)重复购买用户次数最多的用户


用户122338823购买次数达到809次,对于这类忠实的用户需要开发用户信息库,建立完善的用户资料库,记录客户购物情况。针对性的提供优质服务。
2.用户行为转化漏斗分析
在购物环节中,收藏和加入购物车没有先后之分,所以在分析各环节转化率时,可将二者放在一起分析。
1)用户购买行为计数

2)各环节转换率(基于总点击次数)
用户点击后收藏和加入购物车的转化率在5%左右,真正购买的只有1%,购买转化率比较低,还有很大的增长空间

3)各环节转换率(基于上一环节)
收藏和加入购物车后,真正购买转化率占20.51%


3.用户画像分析
1)购买率高的人群有什么特征
按购买率降序排序

按购买次数降序排序

从上面查询结果可以发现,购买率高的人其点击次数并不是很高,收藏和加入购物车次数也少,购买次数多的人其购买率并不是很高,由此可以推断出,此类型用户多为理智型,目标明确,缺啥买啥,一般不会收促销活动和广告宣传的影响。
2)购买率低的人群有什么特征

针对购买率为0的用户可能有2种情况:如果点击次数多,收藏和加购数量也比较多的用户,一般可认为是等待型客户,可能等待商家活动,其自制力比较高,轻易不下单;如果点击次数少,很可能是该类型用户不太会网购甚至不喜欢网购。
4.基于时间维度了解用户的行为习惯
1)一天中用户活跃的时段分布



从上面的图表可以看出,0点到5点用户活跃度快速降低,4点左右降到最低,6点到10点用户活跃度快速上升,10点到18点用户活跃度较平稳,19点到23点用户活跃度快速上升,21点和22点时间段用户活跃度最高。
2)一周中用户活跃的星期
由于11月18日-12月18日之间有不是完整的周,所以分析时需要去掉那些天,即对差异的数据需要剔除。



由上面图表可以看出,每周用户活跃度较稳定,每周五活跃度会有小幅降低,但是周末会慢慢回升。其中第四周周五用户活跃度突增是由双十二大促活动引起。
3)每天的用户行为变化



从图表中我们发现在2014/12/12日四项用户指标均达到了高峰,此时正值双十二促销期间,几项指标中购买次数涨幅最大,收藏数涨幅最小,这是由于双十二活动期间许多用户已经提前选择好商品,留到这一天购买所致。
5.参照RFM分析模型找出有价值的客户
RFM模型是衡量客户价值和客户创利能力的重要工具和手段,本数据源没有金额,所以只考虑R和F分值。
1)计算R-Rcency
由于数据集时间时2014-11-18到2014-12-18,所以选择2014-12-19作为计算日期,统计客户最近发生购买行为的日期距离2014年12月19日间隔几天,对间隔时间进行排名,间隔天数越少即排名靠前,客户价值越大。


2)计算F-Frequency
统计每位用户的购买频率,再对购买频率进行排名,频率越大,客户价值越大。


6.商品销售分析
1)日成交量变化



2)商品数与购买次数分析



从上面图表可以看出,只购买一次的商品有77586种,符合电商的长尾效应,没有销售非常集中的商品。
3)重复购买次数最多的商品


商品编号303205878购买次数达到50次,对于复购率高的商品,建议可以建立自己的忠实粉丝群,实行更精准的人群管理。
六、结论
1.总体转化率只有 1.04%,用户点击后收藏和加购物车的转化率在 5.07% ,需要提高用户的购买意愿,建议通过活动、优惠券等提高转化。
2.购买率高且点击量少的用户是比较理智购物的群体,一般是缺啥买啥。而购买率低的用户可以认为是等待型或克制型用户群体,下单欲望较少且自制力较强,购物难度较大。
3.2014-11-18 至2014-12-18 一个月内复购率达到92%,可以说明商品对用户的吸引力比较大
4.商品编号303205878被购买次数最高,可以建立自己的忠实粉丝群,实现精准营销。
5.用户122338823购买次数最多,针对忠实用户,可对其详细资料建档留存。
6..用户活跃度一般集中在10点-23点,在21点和22点时间段活跃度最高,可以根据用户的活跃时间段精准推送商家的折扣优惠或促销活动,提高购买率。
网友评论