我的数据分析方法论

作者: 人人都是产品经理社区 | 来源:发表于2019-06-18 17:00 被阅读13次

第二章结构为王--确定分析思路
谁说菜鸟不会数据分析-入门篇(第2章结构为王--确定分析思路)
谁说菜鸟不会数据分析（二）
数据分析第二章结构为王-确定分析思路
初涉数据分析（二）
数据分析方法论
你一定要知道的数据分析方法
企业数据分析的基础知识（二）
谁说菜鸟不会数据分析--入门篇第二章：结构为王，确定分析思路
数据分析方法论

数据的重要性在于，它依靠客观的标准衡量或判断一个方案、一场活动、或是某个功能模块的市场认可度，这就有效规避了个人主观意愿对产品走向的控制，同时也为构思层面的质化思考转向实践层面的量化研究提供介质。

题图来自Unsplash，基于CC0协议

信息论创始人香农把信息定义为“用来消除随机不定性的东西”。而在产品分析中，数据就是用来消除随机不定性的信息。

数据的重要性在于，它依靠客观的标准衡量或判断一个方案、一场活动、或是某个功能模块的市场认可度，这就有效规避了个人主观意愿对产品走向的控制，同时也为构思层面的质化思考转向实践层面的量化研究提供介质。

数据分析的第一步在于量化指标，并搭建整个指标库

我们去修车的时候，修车师傅会先问哪个地方坏了，然后对症下药，迅速搞定。但这样做的前提在于他知道整个车体的零件、零件的对应功能和功能与功能之间的对应关系，当这些都了然于胸后，才做到游刃有余。做产品也是一样，做一款新产品时，就需要把每个功能模块编号，标注清楚它的功能、意义，以及衡量标准。

在量化指标时，要遵循两个法则：MECE法则和全盘量化法则。

MECE法则：各指标间相互独立且无遗漏

在搭建指标库时，指标间不能互相重叠，必须遵循MECE法则，做到独立而无遗漏。一般而言，产品可遵循ARPPU模型，将指标分为拉新、促活、留存、活跃、付费、转化这五大模块，做到相互独立。而在单一模块中，又可引入渠道、地域、年龄、付费金额等其他维度数据，确保该模块的细分指标无遗漏。

目前，行业内对于通行指标已经形成一定共识，可直接借助友盟搭建。（下为友盟截图）

在该数据面板中，已经涵盖了实时数据、整体趋势、用户、留存、渠道、功能、终端、错误分析和社会化分享这九个层面的指标参数，很大程度上节省了产品从0到1搭建指标库的过程。借助友盟，我们可以得到多数行业通行的指标数据，而把更多精力放在那些需要自定义的指标上。

当然，自定义指标同样可以借由友盟搭建，在左侧栏功能使用——自定义事件中，产品经理可以自行定义自家产品的诸多指标。（下为友盟截图）

全盘量化法则：凡可以量化者皆须量化

在量化指标，形成自己的数据指标时，理想的状态是把所有能够量化的指标都进行量化。我在游戏公司时，研发组每研发一款新产品，产品组就会和数据部门合作，找出该产品中所有能够量化的数据指标，并根据MECE法则将这些指标分门别类，判断彼此之间的逻辑关系。

在指标量化完全后，产品组将产品上线并对各项指标进行观察。一段时间后，指标间的关联因素便可以通过数据体现出来。这时产品组就可以根据不同指标间的关联度，从而取舍关注的重心。

将指标全盘量化的目的有二：

一、避免人为判断的误差性；

二、让产品组成员对产品有一个通盘的了解。

一些公司在搭建指标库时，常常根据行业经验进行判断，但时事横移，以不变的经验判断变化的经验，难免有些误差。与其让人为决定整个观测的走向，不如直接从实践中得出结论。再相似的产品也有差异的地方，有时候仅仅是一点微小的差异就可能导致以往的行业经验产生偏差。

另一方面，对产品经理而言，将指标全盘量化的好处在于能够仔细看清产品的脉络。这跟从医者在从医前要弄清各类病症一样，尽管这些病症中的绝大多数在以后都不会遇到，但正是因为有着先前的积累，才能做到之后的了然于胸。

在实际工作中，我既经历过有着完备指标库的公司，也经历过指标涣散的公司。前者处于游戏行业，对数据极端敏感，每日的数据报表多达数百项指标。一旦某一项指标出现异常波动，分析人员能够迅速锁定该指标所属的功能模块，对应的用户群体和来源渠道，从而给出相应的分析报告。

而后者属于在线教育类行业，他们对于数据的敏感程度只限于行业平均指标、如日活、留存、打开率之类的漏斗模型，并没有对用户、次数、时段做进一步的细分，导致的结果就是一旦某个指标出现问题，产品经理很难顺藤摸瓜，找到影响该指标的其他因素。

对于产品经理而言，如果所在公司已经搭建好自己的指标库，那么你需要去搞懂每个指标的含义，弄清楚彼此之间的逻辑关系；如果所在公司的指标库仍未搭建完善，没有充分利用友盟的自制看板，那你的第一职责就是说服你的上司，从现在开始搭建自己的指标库。

数据分析的第二步是观察

所谓观察，就是基于已搭建好的指标库，对指标中的全体或特定样本进行观测检验。观察行为的产生，依赖于两个要素：观察方法和观察样本。

先讲观察方法。

多数的观察方法都从统计学角度出发，又加之社会学的实验论证。但归根结底都是为了建立以样本为中心的坐标系以确定方位。

从日常经验角度出发，人类一般依靠两种方法确定方位：时空轴和锚点。东西南北的方位名词属于时空轴，左右则属于锚点。数据观察也同样如此，横纵分析是以时空为要素，对比分析则以锚点为基准。时空和锚点结合在一起，就是多维坐标系。

所有的数据观察，都依赖于多维坐标系，不论你是用纯表格，还是折线图、数据透视图，你都需要把所分析的对象架设在坐标系之中，从而判断它的方位是否偏离了常规赛道？偏离的角度多少？如何引入相反的拉力使其重回正轨？只有掌握多维坐标系的观察方法，才不至于在纷繁复杂的坐标库中“乱花渐欲迷人眼”。

当然，坐标系不单是一种思维模型，它还可以固化成具体流程，我们可借助友盟的自建看法，将坐标系模型化，固定化。（下为友盟截图）

俗话说，巧妇难为无米之炊。光掌握观察方法还不够，我们还需要观察样本。

观察样本指观察的对象，映射在产品中即所谓的运行数据。一个好的观察样本，必须满足两种属性：纯净性和全面性。

纯净性

观察，在相当程度上依赖于对比，只有对比才能产生变动和契机。数据分析中，最糟糕的不是数据错乱，而是不存在原生数据（即样本纯净性缺失）。

一个刚上线的产品，初始阶段就各种活动，拉新，促活，打榜，很快吸引来一波用户，数据量也蹭蹭往上涨。那么对这个产品来说，它的原生数据是不存在的。产品经理无法得知产品的野生状态的变化幅度，而只能依靠活动过后的平稳数据，以之为基点进行评估。

以变化后的平静数据为基点评估，最大的问题在于，我们无法判断因活动带来的变化波与数据的起伏程度能否相互抵消，我们甚至无法判断变化波与起伏程度到底是相互中和还是相互乘积的关系。

我举一个实例。这是某家公司产品的每日真实新增，该产品几乎从未做过运营推广类活动，全部靠产品自发生长，它的波动值在1500以内。（下为友盟截图）

而我之前所在的某家公司，其体量、产品属性、日活度基本上跟这家公司类似，但它们的新增波动值在200左右。所以当时的判定标准为：超过200的波动就算是异常波动，需要做态势分析。

为什么后一家的波动区间要远小于第一家，一个很重要的原因在于第二家会经常对产品做运营活动或者打榜，难免带来对初始数值的波动。可是这样一来，我们很难判断产品的基本值域在哪里，究竟是200还是2000。如果说我们以200为基准，但自然新增的区间却远在其之上，如果我们以2000为基准，那我们首先需要衡量中间的1800是因为何种原因被抹平了。

不同行业的波动值不同或许情有可原，但同一类目产品的相差却不应该如此之大。可能一在于非自然转化用户携带的K因子扩散，可能二在于产品的某类属性粘性较高，但无论何种可能，都需要原生数据作为基准。原生数据的宝贵在于它帮助我们判断自然状态下的数据区间，从而撇除产品之外因素带来的干扰。

全面性

如果说原生数据代表着观察数据的纯净性，那行业数据则代表着观察样本的全面性。行业数据可以从友盟的基础看板里获取，可以看到整个行业的几个基本平均数据。（下为友盟截图）

行业数据其实对于从业者有很大的好处，它可以对比自己在行业中的体量，排名，以及落后的点，再着手优化。不过我认为还可以更深化一点，大家共享更细分的数据，例如学习类的可以囊括每日人均单词学习量，学习时长、复习时长等；数据共享带来的益处最终能够平均受用。

数据分析的第三步是干涉

所谓干涉，可分为两种：一种是对常态数据的拉伸，另一种是对非常态数据的拉回。常态数据即指产品的常态运行状况，非常态则指产品的异常运行状态。

从量子力学的角度讲，观察与干涉本身就是一对矛盾体，观察影响干涉，干涉改变观察。但限于实际的工作条件，这两者仍属必不可少的双生行为体。

为了确保产品有效运转，干涉行为则无法弥漫，而无论是拉伸还是拉回（见干涉定义），都必须建立在“拉”这个动作行为上。

那如何拉呢？最好的办法是分解。

当我们把数据指标分析体系建立起来了以后，最经常看的是一级指标，这反映了产品发展的整体态势。可是当我们要对数据进行干涉的时候，我们应该看的是一级指标下的二级指标，乃至多级指标。我们不单要看多级指标，还要看多级指标分解成单一指标。譬如“率”代表着指标A比上指标B，指标A又等于指标C+指标D。

分解时要做的就是把指标A、B、C、D摆到台面上，像乐高积木一样把它们拼凑起来。如果我们能够像生物学一样，将指标分门别类，建立类似纲门科属种的分类，那么取用时就会方便很多。这又一次强调了建立数据指标库的重要性，前期的工程量将为后来的诸多研究架桥铺路。

在具体的分解中，熟悉指标的类目尤为重要。

譬如背单词类应用，如果我们想提高它的k因子活跃度，增加它的留存，那么它的元指标是什么？所谓的元指标，就是牵一发而动全身之物，也是关键的关键。

K因子活跃度的关键在于口碑，传播机制只是它的渠道，而口碑的关键在于产品本身能够有效帮助使用者提高背单词的效率。留存率也同样如此。在这个分解环节中，产品本身的效用度成为我们的元指标。

而效用度本身是个虚无指标，它需要借助衡量指标量化自身。单词工具的效用度可以用单位时间背单词量和持续天数来衡量，而这两个指标都是可以清晰执行的。如果我们要拉伸或拉回产品留存率和传播度，就可以从提升背单词量和持续天数着手。

在上述分解过程中，我用了元指标、虚无指标和衡量指标这三个概念。实际上元指标是和孤生指标相对的概念，而虚无指标则和实存指标相对。如果元指标恰好为虚无指标，那么用以揭示虚无指标的实存指标就恰好为元指标的衡量指标。上述指标概念同字面意思，不再赘述。

还是着重强调一下元指标。常规的数据分析，其过程往往是顺承的，但也有一些情况是“跳跃式分解”。用户群体可以分解为新增用户、活跃用户、忠诚用户、付费用户，这是顺承分解。但K因子分解为背单词量和持续天数，整个逻辑就很跳跃。

但这种跳跃只是表面形象，它之所以能够跳跃的原因在于彼此之间依靠元指标勾连。元指标的特质之一是居于中心地位，勾连其他指标，在跳跃分解时要首先找到元指标，就能够将彼此串联起来。

当然，光有数据层面的分解还不够。分解最重要的要义在于行为分解。数据是行为的量化体现，但量化的行为处于静止态，难以真正反映出运动态时的数据。把行为作为数据分解，是为了解析运动态时掩藏的基因密码。

这就意味着产品经理要用到用户体验地图。游戏学中，有一种说法是：产品制作者搭建产品的底层规则，当用户参与规则时则形成变量，而最终产品呈现的全貌则是互动的产物。在分解行为时，每一刻的数据都是动态的，我们无法去记录它，而只能感知它的走向态势。有时候数据分析最重要的就是脱离产品本身而回到人的状态。不是数据会干什么，而是人会怎么做。

也就是道不在身外，道向内求的境界。但那就是后话了。

作者：善宝橘（刘杨）

本文为「人人都是产品经理」社区和友盟＋联合举办的“2019「友盟杯」数据分析大赛”中获奖作品，未经作者及平台许可，禁止转载

本文部分数据有脱敏处理，非全部真实数据

有关产品测评大赛合作事宜，请联系邮箱：denis@woshipm.com

第二章结构为王--确定分析思路
一、数据分析方法论1.何为数据分析方法论？和数据分析相关的营销、管理等理论统称数据分析方法论。在数据分析方法论的指...
谁说菜鸟不会数据分析-入门篇(第2章结构为王--确定分析思路)
1. 数据分析方法论 1.1 数据分析方法论与数据分析法的区别 1.2 数据分析方法论的重要性理顺分析思路,确保...
谁说菜鸟不会数据分析（二）
2.1数据分析方法论 2.1.1数据分析方法论与数据分析的区别数据分析方法论：主要用来指导数据分析师进行一次完整...
数据分析第二章结构为王-确定分析思路
数据分析方法论与数据分析法的区别：数据分析方法论的作用：常用的数据分析方法论：营销相关：4P、用户使用行为、...
初涉数据分析（二）
一、数据方法论和数据分析方法数据分析方法论从宏观层面指导如何进行数据分析，而数据分析方法则是指具体的分析方法，从...
数据分析方法论
数据分析常见问题数据分析流程数据分析方法论
你一定要知道的数据分析方法
之前文介绍过数据分析方法论，那么数据分析方法论与数据分析方法有什么区别呢？数据方法论主要是从宏观角度知道如何让进...
企业数据分析的基础知识（二）
1.数据分析的常规流程 2.数据分析方法论及数据分析法数据分析方法论:主要是从宏观角度指导如何进行...
谁说菜鸟不会数据分析--入门篇第二章：结构为王，确定分析思路
一、数据分析方法论与数据分析方法的区别使用数据分析方法论的目的是使分析的内容能够有维度上的完整性，分析结果的有效...
数据分析方法论
数据分析方法论主要从宏观角度指导如何进行数据分析，它就像是一个指南针，指引后期数据分析工作的开展。数据分析方法论...