通过具体的项目案例,学习面对数据和业务问题,如何去展开分析。
下面内容来自社群会员作业的一部分,通过发现问题,帮助你提高分析思维。
一、数据集介绍
数据来自淘宝和天猫上购买婴儿商品,本数据集包括2个excel文件
表1是购买商品的信息,表2是婴儿信息。数据来源:
https://tianchi.aliyun.com/dataset/dataDetail?dataId=45
两个表的字段含义如下:
1)表1购买商品信息表字段
user_id:用户id
auction_id:购买行为编号
cat_id:商品种类ID
cat1:商品属于哪个类别
property:商品属性
buy_mount:购买数量
day:购买时间(是个时间戳格式,可以通过excel将时间戳显示未日期格式)
2)表2婴儿信息表字段
user_id:用户id
birthday:出生日期
gender:性别(0 男性;1 女性)
二、提出问题
1.每一年的婴儿用品销量如何?
2.哪些商品是用户最喜欢?
3.统计用户购买回头率前三的商品有哪些?
三、分析
使用excel对数据进行清洗,和透视表对数据进行汇总,然后对汇总结果进行可视化。
1.哪些商品是用户最喜欢的?
利用数据透视表分析,轴选择商品序列号,值选择购买数量求和
从图表可以看出,销售前三的产品分别是28号商品,销量28545件;50014815号商品,销量19763件;50008168号商品,销量18792件。这里缺少商品名称数据信息,后期可以找到对应的商品,将热销商品放到店铺明显位置,从而满足用户的需求。
2. 每一年的婴儿用品销量如何?
利用数据透视表,折线图,组合年份,统计每一年的商品销量。
从图表可以看出,2012年至2014年销量呈线性上升趋势,数据是从2012年7月2日-2015年2月5日。2012年及2015年销售总量并非该年全年总量,可以根据往年销量对2015年销售数量进行估值,对通过2013年,2014年数据对2015年销量估计,2015年销量=2014年销量*2014年销量/2013年销量,2015年销售总量约为78000件。
【作业点评】
你这里已经出现了2014年销售达到了一个峰值,而2015反而出现低谷,为什么不去分析下为什么会出现这个情况呢?这里就可以用PEST分析方法来找出原因。
多问几个为什么,比如为什么会在2014年出现峰值呢?那一年销售最好的是哪些?由哪些商品销量增长带动的增长?你应该要思考一下,而不是简单的下结论说“2014年出现了峰值”。
【社群会员说】这是因为销售业绩本身在二月份就不好,双十一促销后,大家都屯足了货,1,2月销售量自然会下降。
【作业点评】2012-2014三年连续增长,你不探究一下为什么吗?是这样吗?
你要用数据来说明,而不是自己的主观臆断结果,也不是你的常识,这也是为什么要数据分析师去做了。
3. 1-12月份销量走势对比分析
1)同年分析方法,按月组合,对2013年和2014年1-12月份销量走势对比分析
从图表可以看出,11月份销量突升,应为双11促销活动引发的。全年销售整体持续上升,6月份销量低迷。
【作业点评】
你这里的分析也很乱。你说是2013和2014的1-12月份的销售走势说明,2013和2014年1-12月份的曲线图呢?应该是两条曲线图的对比才对,为什么只看到一条曲线?
如果是同一条曲线,那就是月份之间的对比了,为什么要说上年份?
你这样很混乱,我不知道你做的是月份对比还是时间轴的对比。所以你的分析没有逻辑性。
4.周一至周日销量走势对比分析
从图表可以看出,可见周一-周三销量不断下降。周四销量陡增且销量最高,约为周三的两倍。周天销量最低,约为周四的1/3。周四-周日销量逐渐下降。
【作业点评】
你就这样下结论,万一是数据错了呢?周四最高,你要分析一下为什么?周日最低,为什么?不要太过于相信数据,有时候数据是骗人的。
你理解一下什么是环比和同比,不然就会出现刚刚那两个问题。但是你数据分析里,就很乱,如果我是面试官,我肯定就会针对你这一点来考察你是否理解环比和同比。
数据分析不是说你做个统计就可以了,然后跟我说一个显而易见的现象。例如刚刚你的数据那样,你说周三最高,那有什么用?难道一线业务员不知道你的统计吗?
你是数据分析师,应该要分析它为什么高,这才是你的价值所在。
做项目的过程就是一个不断优化学习的过程,希望社群内部的讨论和建议可以帮助社群会员更好的完善项目。
网友评论