美文网首页数据蛙数据分析每周作业
第四阶段可视化案例总结

第四阶段可视化案例总结

作者: AUX_0abb | 来源:发表于2020-10-20 00:14 被阅读0次

单车网站业务案例

由于后面的用户消费行为和回购率、复购率还没有完全消化,所以先做前两个部分的用户行为总结


分析运用的工具为Python,其中涉及numpy、pandas两个模块(库),可视化运用的工具为powerbi,分析的过程主要分为四个部分:

1.数据的读取与查看数据基本情况

2.数据清洗与整理

3.用户消费趋势分析

4.用户个体的消费情况

一、数据的读取与查看数据基本情况

1.数据获取的格式为‘txt’文本,在这里使用pandas进行数据的读取,同时对数据的字段进行命名,并设立分隔符,使列表更加美观,增加可读性。

*注:userid:用户ID;order_dt:购买时间;order_product:购买产品的数量;order_amount:消费金额

2.对数据进行基本的查看,如字段的类型、描述型统计;

简略分析:从描述性统计的情况,用户的平均消费产品量为2.4,说明大部分的用户只购买了小量的产品,由于最大值为99,中位数为2,所以该平均值数据受到了极值一定的影响;用户的平均消费金额为35.59,也受到了极值一定的影响;

二、数据清洗与整理

1.首先,为了方便把数据导入powerBI进行数据可视化,所以将order_dt(即购买时间)进行时间格式的转换;

2.其次,由于以下的分析内容按月分组进行分析,所以这里添加一个新的字段month,只显示每月第一日,以此达到按月分组的效果。

三、用户消费趋势分析

分析方向:1.每月消费总额趋势

                2.每月消费次数趋势

                3.每月消费人数趋势

                4.每月消费产品购买量趋势

1.对每月消费总额的数据进行提取。方法:首先对数据进行按月分组,通过求和sum()函数,查看order_amount列的结果,即每月消费总额。

2.对每月消费次数的数据进行提取。方法:在按月分组的基础上,对每月的订单进行计数。

3.对每月产品购买量的数据进行提取。方法同1

4.对每月消费人数的数据进行提取。方法:利用unique函数,查看userid在每月的去重出现情况,然后获取利用map行数返回user_id去重后出现情况结果的长度,效果如下:

为了方便powerbi可视化的操作,我个人把前四个Series都合成为同一个DateFrame表,后两个Series合为一个DateFrame表里,并进行命名,最终以excel格式导出。如下:

可视化展示

1.每月消费总额趋势

分析:1.消费总金额的高峰在前三个月,有可能是因为网站开放进行了一系列拉新的活动;

          2.三个月后,消费总金额在呈现断崖式下降,然后逐渐稳定,有稍微下降的趋势;

2.每月消费产品购买量趋势

分析:由图可知,产品购买量在前三个月达到了最高峰,后续购买量趋于稳定地下降趋势;与消费总金额的趋势情况匹配;

3.每月消费人数与消费次数趋势

分析:1.由图可知,月消费人数低于月消费次数,差异并不大;

          2.在经历前三个月的数据高峰(8000-13000)之后,后续的消费人数与消费次数都呈断崖式下降,然后趋于稳定,都低于平均值(受极值影响),在2000-3000之间。

四、用户个体消费分析

分析方向:1.每个用户每月的消费金额与产品购买量描述性统计

                2.用户的消费金额分布

                3.用户的消费次数分布

                4.用户累计消费金额占比

1.每个用户每月的消费金额与产品购买量描述性统计

方法:为了方便,在这里使用pivot_table()函数创建数据透视表,直接创建按user_id分组的,仅显示消费金额与消费次数的DateFrame表,进行描述性统计并输出为excel表,如下

分析:每个用户平均购买了7个产品,但中位值为3,说明大部分用户只购买了少量的产品;

          每个平均消费总额106,但中位值为3,也与上述判断匹配

可视化:

2.用户的消费金额分布。方法:利用cut函数,以用户的消费金额划分范围,划分100份。范围为0—最大的消费金额值+50,由于取值范围左闭右开,所以+50,步长为50。范围用一个列表生成器定义,而列表的标签则从索引1开始。最终输出excel如下:

可视化:因为极值过大,为了降低影响,利用切比雪夫定理过滤异常值

3.用户的消费次数分布。方法:同上(划分范围与份额不同)

可视化:因为极值过大,为了降低影响,利用切比雪夫定理过滤异常值 :95的有效数据在5个标准差加平局值内,5%的极值可以过滤

4.用户累计消费金额占比:方法:在按userid分组的基础上,以order_amount对表内进行升序,并通过cumsum()函数进行累计计算;然后,在按userid分组的基础上,order_amount对表内进行升序,对表捏字段进行求和;最后把两表相除,得出占比,如下:

可视化:

分析:50%的用户贡献了18%的消费额,排名前20%的用户贡献了70%消费额,排名前10%的用户50%的消费额。一方面说明数据受极值影响较大,另一方面表明消费额排名前20%的是主要的消费群体,根据二八定律,该单车网站业务需要留存好这部分主要消费群体,适当扩展主要消费群体。

总结

1.本阶段遇到的问题主要是绘图函数的各种参数,因为这部分知识点比较庞大,要通过多练习熟悉。

2.业务知识的缺失,通过课程和项目也在不断了解业务知识,接下来需要在日常的学习任务加上业务知识!

相关文章

网友评论

    本文标题:第四阶段可视化案例总结

    本文链接:https://www.haomeiwen.com/subject/cvlrmktx.html