深度: 数据分析3步走

作者: TaraChen | 来源:发表于2018-04-01 21:10 被阅读153次
数据分析.jpg

老板:这个功能上线,效果怎么变差了,分析下什么原因?
PM 内心:MMP,难道不是自然波动吗?

工作中经常需要数据分析,但有时原因真的很难找。或者就算觉得找到了,也难以用数据证明。有时找到了方向,取了一大堆数,算了半天,发现缺少某个维度的数据,又要重新求着数据部门要数据。找到了想要的数据,又恨自己数到用时EXCEL技能少。总之,一到数据分析要耗费不少时间。

不过没关系,今天3个步骤教大家高效的数据分析方法。其实,EXCEL 这些工具技巧真的没那么重要,数据分析困难和费时主要还是提炼思路的部分。这个部分想清楚了,自然就高效了。

步骤一:抛开预设结论,穷尽维度搜集数据

通常产品上线一周,会有一些关于上线效果的推测的结论。
但在这一步,不要直接根据假设取数,而要搜集产品维度相关的所有数据。

我们往往会先依据预设假设去要数据。而一旦从数据中发现其他问题,又要再次要数据,从头分析,浪费时间。

举个具体的例子。
假设有个平台为用户提供接送机服务。有X和Y两个服务供应商在服务。这个平台有DE2个渠道售卖这个服务。D渠道又分为D1、D2 、D3 3个子渠道,现在在D1、D2上下线了X供应商。一周后数据周报显示D1、D2的订单完成单减少。需要PM给出解释。

这里先解释下,接送机服务用户下单后,上车到达机场或目的地算订单完成。中间用户没有坐车,比如用户取消,或者没有司机接单导致订单取消,都算这个订单没有完成。

初始推测的假设是D1D2下线X供应商,导致Y供应商下单增长,但是没有那么多司机接单,因而完成单减少。

那这个时候取数不能只去看D1D2下线前后订单数、完成单数的变化。而是应该把D3、整个D渠道、E渠道和平台渠道在前后的订单数、完成单数都取一遍。万一D3完成单也减少了呢,可能就是渠道的原因。

取数范围关注:

  • 变化如何:比较D1D2的变化趋势、变化比例
  • 有变化和无变化的比较:D1D2 VS D3, D VS E

取数逻辑关注

  • Y下单增长的渠道,完成单如何变化
  • Y下单未增长甚至下降的渠道,完成单如何变化
  • Y下单增长量大和小的渠道,完成单如何变化

步骤二:从初始数据中建立一些假设

关键词:假设

数据分析的核心是建立建设、验证假设。所以其实不需要多么高深的数学或统计学知识,只要有最基本的假设检验的概念就可以了。

在步骤一中,你可能找到一些蛛丝马迹似乎能论证结论。例如你发现了某个数据变化的同时结论数据也变化了。但是要记住这个线索只是假设,不要立刻当成结论。否则的话很可能会在后面被新出现的证据推翻。

在这一步中,把发现的线索当作假设,然后应该思考怎么进一步去论证,需要哪些进一步的数据。

步骤三:进一步搜集数据,论证假设

1 是自然下降/上升吗?

出现数据问题,可以先评估是自然波动吗?

假设步骤一中的案例,渠道E中X供应商在某个周末下单数增加。它的应单率减少。应单率指的是在用户下的订单中,司机接单的数量。
提出假设:X下单数增加导致司机运力不足,从而应单率减少。

但首先可以评估下是否自然波动。例如是否只要周末X的应单率就会下降。可以对比之前周末的数据。

2 有可能是整体性因素吗?

排除了自然波动,看一下是否有整体性因素?

例如那周末暴雨,导致航班变化、取消比较多。因而订单自动取消了。而这个因素不仅仅影响X供应商,也会影响Y供应商。那么可以看Y供应商的应单率是否也下降了。

3 是假设导致的吗?

排除了以上2种情况,就要开始论证假设。假设论证一般是因果关系的论证。

1) 单一因果关系

即A导致B,这一论证除了去看出现A 是否出现B,还要看

  • 出现A 是否有非B
  • 未出现A是否一定是非B 是否有B
  • 有B的情况是否一定是A,是否有非A
  • 非B的情况是否有A,是否是非A

例如,要论证A的增长引起了B的增长,通常需要看

  • 有A增长时,B是否增长
  • A不变或下降时,B是否不变或下降
  • A增长幅度大或小时,B增长幅度是否大或小
  • 以及反面的情况

如果只能看到A和B的数据,没有非A或非B的数据怎么办呢?

例如我们在接送机的列表页新上了一个返现报价的产品。但是购买返现产品的用户比较少。由于返现产品原价高会被价格低的普通产品挤下去,导致有些情况用户在第一屏看不到返现报价。我们推测返现整体露出少(A)所以效果差(B),但除了做AB测试再定义个逻辑,我们不可能找到整体返现露出多的情况。

这个时候,可以看子维度

  • 看子维度,且不要只看一个子维度,穷尽子维度是否能得出假设。
  • 看子维度的子维度。看子维度是否能再分也能提供信息。

不同车型(经济型、舒适型、豪华型等)都有返现。有些车型普通产品少,返现产品露出多。返现露出多的车型效果是否更好?还有一个子维度是城市。有些城市的普通产品也比其他城市少。不同城市的不同车型露出不同。该城市该车型露出多,该城市该车型是否效果好?等等.

2)因果链条

有时,一件事不能很直接找到原因,而是有一个长的因果链。那应该找出因果链每一环,定义测量指标,对每一环论证。

例如步骤一里的案例实际是个因果链。

Y供应商下单增长(指标:下单数) -> 导致司机运力不足(指标:应单率=接单数/下单数) -> 接不起(指标:完成单率=完成单数/接单数)

除了看下单数和完成单数,还要关注应单率的变化。

这一步骤中会有一个问题:有些数据比较难找。此时可以进行估算

例如评估产品露出对返现影响那个项目时,需要看不同城市的露出率。由于接送机需要用户先输入时间地址,再根据用户选择的区域展示该区域的产品。有些区域有返现露出,有些没有。前端很难记录多少概率下该城市返现是露出的。

于是我就想,如果知道一个城市的热门区域地址,将它们一个个输入查看,记录是否露出,不就能估算该城市的返现露出率了吗?那怎么知道一个城市热门区域有哪些呢?我打开携程酒店,上面就有城市热门区域嘛~接送机的客户一般都是旅游或出差,所以酒店入住的热门区域也差不多是接送机用户地址的热门区域。

步骤四:得出结论

完美。

相关文章

网友评论

    本文标题:深度: 数据分析3步走

    本文链接:https://www.haomeiwen.com/subject/evwacftx.html