常用异动分析方法

作者: 让数据告诉你 | 来源:发表于2021-02-23 10:47 被阅读0次

常用异动分析方法
数据分析的几种常用方法概览
java容器源码分析--HashSet（JDK1.8）
R-clusterProfiler: GO/KEGG + 可视化
Thread源码解读
Data Science with R in 4 Weeks -
iOS开发 - ViewController 的生命周期
数据异动如何分析
常用的分析方法
Paint 常用方法解析第二篇

目标：

1、了解常用异动分析方法

2、学会在分析实战中应用

如何分析出异常波动的原因

工作场景：已知某指标异常（以GMV&GTV为例），确定异常的原因。

——需要人工寻找异常指标，比如人工异常发现某指标异常（以GMV&GTV为例），然后确定GMV&GTV异常的原因。

分析异常波动的原因占日常工作的70%左右，平时的周报、月报、季报、半年报、年报、十一复盘、大促复盘、春节复盘、周年庆复盘等等经常需要分析波动的原因。

只要是偏周期类型的交易（报告），都会出现指标的波动，只要指标有波动，里面就有和正常趋势不一样的波动的点，这些点的背后的原因，就是大家核心比较关注的地方。

分析师的工作就是要把波动背后的原因找出来，并辅以相关的策略建议，然后给业务方和老板进行一定的输出。

日常工作中，90%左右的情况，只要到第一步（看目录）就够了。

第一步：杜邦分析法对异常指标进行拆解

——做异常波动的原因分析，确定影响指标波动的核心因子，以便做更细粒度的分析

杜邦分析法是利用几种主要的财务比率之间的关系来综合的分析企业的财务状况。具体来说，它是一种用来评价公司盈利能力和股东权益回报水平，从财务角度评价企业绩效的一种经典方法。其基本思想是将企业净资产收益率逐级分解为多项财务比率乘积，这样有助于深入分析比较企业经营业绩。由于这种分析方法最早由美国杜邦公司使用，故名杜邦分析法。

核心是拆解！！！先拆解指标，再拆解维度，这样可以大大的提高分析的效率！！！

为什么要进行拆解呢？因为只看GTV的话，很难判断到底是由什么因素造成的波动，可能是交易用户数，也可能是客单价，所以拆解完之后，才能更便于定位某个细节点的问题。

image-20210202173335028.png

对交易额而言，是由交易用户数*客单价决定的（有就是有多少购买的人，每个人花了多少钱，两个相乘就是交易额）；

如果是交易用户数的问题，就对交易用户数进行进一步的拆解，由于交易用户数=DAU*交易转化率得来的；

活跃用户数

活跃用户数（DAU）又受到新/老客、用户生命周期（成熟期流失？沉睡用户流失？活跃用户转变成沉睡用户？）、城市（哪个城市？哪个类型城市？）、流量来源地影响（哪个渠道有问题了？哪个引流渠道不再合作了？）

当一步步的进行拆解的时候，会发现指标分析起来会更容易找到可以在实际的业务落地的维度方面的异常波动。

例如：如果说老客没有问题，但是新客减少了，是不是相当于说明要多花一些心思去拉新？如果是新客波动趋势没有发生变化，但是老客越来越少了，是不是就说明了留存出现了问题？从而导致了老客的DAU下降了？

如果是交易转化率出现问题，那么什么会影响交易转化呢？这时候重点就要去用户行为路径进行拆解查找原因，也就是漏斗分析模型。

交易转化率

交易转化就是从流量（DAU）变为交易用户，流量变成交易用户就相当于是一个漏斗分析（首页--搜索结果页/活动商品集合页--商品详情页--加入购物车--结算页面--支付），每一个步骤都会有一定程度的跳出率，以往的经验来说，在首页到商品详情页这个环节提升转化率的效果比较好。

首页到商品详情页，用户通常会有搜索的行为、看猜你喜欢的行为、看具体某个频道的行为，在实际的实操过程中，进行提高交易转化率，通常都会在首页到商品详情页的这个过程进行优化；还有一个是加入购物车到提交订单这个过程也是有很多的转化空间的（如填个人信息比较麻烦导致用户流失等，可以进行ABtest试验进行优化提交订单页的页面内容，让用户不至于在提交订单页的环节流失了）。

还有一个方式是尽可能的减少用户操作的步长，也就是尽可能的较少用户行为路径的步骤，让用户可以比较好的快速的进到付款的界面，因为基本上每多一个环节，用户的最终转化率都会较少一部分。

人均下单频次（订单量/用户数）

人均下单频次跟用户结构和业务结构有关，跟业务结构的关联性最大，如外卖是一个比较高频次的场景，可能一周要使用五六次，但是旅游酒店的业务场景的频次就会比较低；

用户结构就是用户画像的一些特点（用户分层知识），新/老客、活跃用户、流失用户、高频高额用户、高频低额用户、低频高额用户、不同年龄段、不同城市等；

单均价（GTV/订单量）

原价和各种补贴会影响单均价

杜邦分析法的好处就是，当下钻到拆解的某一个点的时候，问题就被定位到了，否则只定位到交易用户数本身，这样是不可以的（比如在做分析报告时，GTV在周五出现了异常下降，下降不是由客单价引起了，因为客单价没有发生变化，是由交易用户数的下降引起的，如果只分析到这里，对老板来说是不够的，因为老板不知道到底是什么原因引起了交易用户数的下降？到底是由于流量的下降引起的还是由于转化率的下降引起的？这些都要不停的进行拆解和下钻，等到度量无法在进行下钻的时候就要进行维度的分析）

假如说客单价最近变得很低，那么到底是不是因为最近补贴补多了？不同的品类补贴的情况不一样，要去看哪一个品类的补贴花的太多了，导致整个的客单价被拉低了？

分析的维度一定要能落地到可以改善具体问题的那个点，比如别人看到你分析的交易用户下降之后，他们就知道到底是要去找渠道组去谈渠道质量变差了？还是应该去跟城市的区域经理谈是哪个城市做得不好？还是应该跟用户运营的团队去谈怎么那么多用户都流失了？还是要去跟负责用户增长的部门谈说最近用户增长怎么那么乏力？

杜邦分析法的层层拆解的目的，都是为了让发现的问题可以有改善的着力点，而且在拆解的时候一定要符合业务本身的特点（如拆解每个小时的GTV这种方式的意义就不大）。

如果没有这样的一个层层拆解，就很难有一个定位异常波动问题的分析框架，那么就会导致每天都要把这些数据重复的提取出来，从而导致很难去做固化，如果有进行层层的拆解分析的框架，并且把这些内容全部固化成监控的仪表盘之后，如果有出现异常波动，那么只要回查一下搭建的仪表板，就能快速的告诉老板到底是由于哪个原因引起的，然后就可以快速的相应老板的诉求，不至于说一直在那边跑数而导致效率特别低。

杜邦分析法也是日常工作中最常用的分析方法，我们平时沉淀的这些，都是特别容易找到问题点的拆解的方式，而且拆解的顺序很关键，也非常的重要，因为思路的起始点决定了做这件事情的效率，如果没有按照有效的方法进行拆解，那么将很难定位到真正引起相关波动的的根本原因。

第二步：连环替代发或者使用波动贡献法定位核心指标/维度

连环替代法定位核心指标
维度拆解定位：

a.根据指标下钻维度方案，生成单个指标解释度的基尼系数，定位什么特征对核心指标产生关键影响

b.计算维度各个特征的影响值

image-20210202174446995.png

波动贡献法直接定位核心指标/维度：

a.波动贡献度方法，确定哪些指标导致核心指标发生异动

b.根因分析确定关键维度

c.基尼系数方法确定关键维度

算法执行前提：当日周同比波动相对历史上的多次波动属于显著波动

a.对于加法/减法类指标，确定各因素对结果都影响数和影响占比

基期N=a+b+c(abc之间也可以说减法关系)，实际期N'=a'+b'+c'，差额=N'-N；
现在计算a因素单独变动带来的影响数：Na=a'-a；
依次计算b因素、c因素的影响数，得Nb、Nc;
差额=N'-N=Na+Nb+Nc；
确定影响占比，a因素占比Na/(N'-N)，b因素占比=Nb/(N'-N)，c因素占比=Nc/(N'-N)，结束工作。

b.对于乘法/除法类指标，使用对数变换，将乘法/除法类指标转换为加法/减法，再确定各因素对结果都影响数

基期N=ABC(ABC之间也可以是除法关系)，实际期N'=A'B'C'，其中N=N(1+n)，A'=A(1+a)，B'=B(1+b)，C'=C(1+c)；
对N'=A'B'C'取对数可得：lgN+lg(1+n)=lgA+lg(1+a)+lgB+lg(1+b)+lgC+lg(1+c)；
因为lgN=lgA+lgB+lgC，所以lg(1+n)=lg(1+a)+lg(1+b)+lg(1+c)；
现在计算a因素单独变动带来的影响数：Na=lg(1+a)/lg(1+n);
依次计算b因素、c因素的影响数，得Nb、Nc；
确定影响占比，a因素占比=Na/(N'-N)，b因素占比=Nb/(N'-N)，c因素占比=Nc/(n'-n)，结束

c.若无因素占比超过50%，则无核心因素；若单因素占比超过0%，且不可向下拆解，则该因素为影响结果指标的核心因素；若单因素占比超过50%，且可以向下拆解，则再次确定影响数。

基期N=abc(abc之间也可以说加减乘除关系)，c占比超过60%，且可以拆解为c=de，则N=abde

重复abc过程，直到找出最后一个占比超过50%的因素，则该因素为影响结果指标的核心因素，结束工作（经过实际数据验证，我们发现50%能比较好的暴露问题）

image-20210202175652462.png

image-20210202180426940.png

基尼系数A/(A+B)，用于计算各下钻维度方案对单个指标波动大影响程度，横轴用特征分组基期累计占比，纵轴用波动值累计占比（可以为负值），基尼系数越大说明该特征对波动大解释效果越好。

image-20210202152245548.png

如图所示，指标计算，用于获取层级下钻维度中各个维度的基础数据，如各个城市等级的本期、基期值等信息；分析算法，根据维度基础数据计算出排序因子，利用排序之后的排序因子计算各特征分组的基期累积占比及波动值累计占比，进而获取到基尼系数；最终选取基尼系数最大的特征作为最终解释。

总结：

1、杜邦分析法的拆解要关注核心可控因素；

2、定位核心指标或维度需要符合业务实际情况

常用异动分析方法
目标： 1、了解常用异动分析方法 2、学会在分析实战中应用如何分析出异常波动的原因工作场景：已知某指标异常（以...
数据分析的几种常用方法概览
数据分析常用方法概览（之一）对数据进行分析的方法很多，常用的有对比分析法、分组分析法、结构分析法、交叉分析法、漏...
java容器源码分析--HashSet（JDK1.8）
本篇结构：前言数据结构重要参数常用方法源码分析疑问解答分析总结一、前言 HashSet也是常用的数...
R-clusterProfiler: GO/KEGG + 可视化
常用的分析方法：过表征分析 (over representation analysis, ORA) ：先找出差异...
Thread源码解读
一、Thread类的私有参数二、Thread 初始化分析三、Thread常用方法实现分析1、start()方法...
Data Science with R in 4 Weeks -
Regression Analysis 回归分析是非常有用的分析方法，而线性回归又是回归分析中常用的方法。有一个著...
iOS开发 - ViewController 的生命周期
I. 常用方法 II. 方法分析 initWithNibName:bundle: 初始化UIViewControl...
数据异动如何分析
0. 数据异动的核心是什么？答：首先要有数据，才能知道什么是“异动”。还有一个要知道有什么假设，下面的图中有常见...
常用的分析方法
根据业务场景中分析目的的不同，可以选择对应的分析方法。常用的分析方法如表所示。如果分析目的是想将复杂问题变得简单...
Paint 常用方法解析第二篇
在Paint 常用方法解析第一篇中分析了Paint的setColorFilter方法，下面接着分析Paint的其它...