美文网首页
数据化运营速成手册笔记

数据化运营速成手册笔记

作者: air33 | 来源:发表于2018-06-18 19:48 被阅读0次

    数据化运营速成手册

    胡晨川

    这是一本基于excel 2016的数据分析和运营技巧书

    让读者正确地理解并应用数据分析 是这本书的目的

    1. 全面认识数据图表

    1.1 数据图表的基本构成

    • 维度和指标

      Measure/Dimension

      分类变量/有序变量/数值变量/逻辑变量

    • 写标题的套路

      用图表直观地反映信息,代替大段的文字和复杂的逻辑陈述,提高信息传达的效率

      标示性标题/描述性标题/指导性标题

    考虑:
    
    * 我最近做的重要决策大致上会反映在哪几个指标?
    
    * 最近我的第一关键指标是什么,与它最相关的指标是哪几个?
    
    * 业务的全局变化如何,与过去我们有哪些方面的改进或者退步?
    
    * 目前的那些执行动作需要调整,对应的指标是什么?
    
    • 图形元素的本质

      几何对象和图形属性

    • 坐标轴是传达信息的关键

      坐标轴上的变化,能让数据撒谎

    • 图例的位置

      告诉读者各个图形元素分别代表什么指标

    • 辅助线能够突出某些信息

      出现在图表中本身不表达任何既有数据,但能帮助观察者形成认知和推断的图形元素

      数据标注辅助线/数据推断辅助线

    • 数据标签需谨慎使用

    1.2 控制数据图表中的信息量

    可怕的不是出错,而是产生混淆

    图形元素数、辅助线数、辅助坐标轴数一共不超过5

    1.3 不需要作图

    • 短期内的了解型需求

    • 多维度相互结合的需求

      表格更有用

    • 作图传达的信息非常有限时

    • 图表中的数据存在复杂的逻辑关系时

    2. 建立数据图表的认知

    2.1 利用散点图探究数据间的关系

    散点图最核心的价值在于发现变量间的关系

    • 最基本的散点图样例

    • 散点图的制作

    • 变种1: 添加平滑线

    • 变种2: 利用气泡图观察更多指标间的关系

      5个变量是二维散点图的极限

    • 变种3: 用分类矩阵形成决策

      波士顿矩阵,根据相对市场占有率销售增长率两个维度衡量企业的各种产品

    • 散点图的局限性

    2.2 利用柱形图将对比做到极致

    柱形图的核心思想就是对比

    • 利用累加柱形图对比数据结构的变化

      有对比才有信息

    • 多指标组合对比

    • 用平均值优化单指标的对比

    • 用瀑布图观察总量分解后的对比

    • 如何正确对比数值指标与比率指标

      柱形图与折线图结合的表达出一个指标的数值和变化率,保证刻度线一致,横坐标表示时间

    2.3 用折线图观察时间序列数据

    折线图核心思想是趋势变化

    • 如何观察趋势

      1. 利用趋势线

      2. 趋势变化的速率是否满足需求

      3. 波动情况

      4. 指标的周期性变化

      5. 关注极值

      6. 关注结构性变化

    • 探寻趋势变化原因

      1. 定位问题

      2. 梳理事件

      3. 分析逻辑关系

      4. 得出结论

        认识到记录的重要性。有清晰的时间记录,在我们对时间序列数据进行回溯时才有据可查

    2.4 利用面积图观察数据结构的变化趋势

    • 动态的观察数据结构的变化: 堆积面积图

    • 用于队列分析: 堆积面积图

    2.5 用雷达图进行静态的多维对比

    2.6 其他类型图表

    • 使用饼图的6个坑

    • 提升视觉冲击力: 树状图

    • 量化流程各环节间的转化率: 漏斗图

    数据图表进阶

    3.1 数据图表到底是什么

    • 分清楚数据中的维度和指标

    • 几何对象就是点线面的结合

    • 标注和坐标系

    • 通过分面来展示数据的子集

    3.2 如何正确地选择图表

    3.3 数据图表中的细节

    • 图表背景和绘图区背景

    • 坐标轴

      坐标轴是否展示出了足够的差别

      范围是否大于数据序列的4倍标准差

    • 灵活使用辅助线

    • 线性趋势线的应用

    • 应用移动平均趋势线做时间序列的预测

      在时间序列数据中,N期移动平均就是以期值为终点,计算过去N个值的算术平均数

    • 添加信息增强线

    • 用标注线指示必要的信息

    3.4 让图表升级的高级技巧

    • 运用组合图表增加信息承载量

      数据可视化的目的是减少观察者思考的时间

    • 运用子母图增加图表中的信息量

    • 条件格式中的几项实用功能

    • 使用迷你图表压缩空间

    • 用不等宽技术优化柱形图和条形图

    • 用Bullet图进行绩效评价可视化

    4 数据化运营的基础知识

    4.1 最基本的数据获取能力

    • 认知数据库的一般构造

    • 能阅读最基本的取数代码

    • 用excel获取数据

    4.2 快速认知数据

    • 仔细审核数据源的质量

    • 提升数据集的质量

      • 清理垃圾数据

      • 处理空值的技巧

        • 用最接近的数据替换它

        • 用平均值替换

        • 合理推断。比如用移动平均数

      • 异常值与异常字段的处理

        数值特别夸张,文本特别长,NULL, 不匹配的数据类型

    • 统一数据类型与单位

    • 描述统计分析

      • 观察数据的一般水平

        • 中位数

        • 众数

        • 加权算术平均数

      • 观察数据的稳定性

        任何风险衡量的模型,其本质都离不开衡量波动性,即方差与标准差

        衡量两个数据序列间相互波动的情况是有办法的,即协方差

      • 初步认知数据的分布特征

        最大值,最小值,中位数,算术平均数,75%分位数和25%分位数

      • 深入认知数据的分别特征

        频率分布图

    • 利用相关系数理解数据之间的关系

    • 通过多维交叉深入认知数据集

      多维分析就是通过多个维度的相互组合,发现数据内深层次的信息

    4.3 几套有用的分析思维框架

    建立起体系化思维。有套路

    • 66法则与SQVID原则

      从谁/什么?有多少?在哪里?什么时候?怎么样?为什么? 5W1H

      SQVID:

        简单/精细(Simple/specific)
      
        定性/量化(qualitative/quantization)
      
        愿景/执行(vision/validate)
      
        个别/对比(individual/compare)
      
        变化/现状(delta/status)
      
    • 麦肯锡七步成诗

      1. 清晰的陈述要解决的问题

        • 问题要具体存在

        • 问题需要可执行

      2. 使用逻辑树来分解问题

        MECE ( Mutually Exclusive Collectively Exhaustive)

      3. 淘汰非关键问题

        找到那些数量上只占20%,影响力却是80%的重点问题

      4. 制定详细的工作计划

        每个to do都必须有负责人和截止时间

      5. 进行关键分析

        设立假设,然后通过数据进行检验

      6. 综合分析结果,建立论证

        寻找到一条逻辑主线, 将各个分散的结论和信息进行组合

      7. 写一个精彩的故事打动决策者

    4.4 创造指标应用指标

    • 什么是指标

      indicator

      过程型指标

        一般需要高频的跟踪(甚至是实时), 根据指标的变化,及时做出调整
      

      结果型指标

        一般从活动中抽象而来,适用于运营活动的评价
      
    • 如何设计高质量的指标

      信度

        指标衡量某事物的准确性、精确性和稳定性
      

      效度

        指标衡量所获得的信息,确实是研究者所期望获得的信息
      

      计算简单快速、易理解、泛化性强,对业务敏感,可持续性

    • 指标组合: 综合指数

      加权综合指数

        各个指标先标准化,转化为统一单位
      
    • 需要关注的核心指标

      • 第一关键指标法构筑指标体系

        找到第一关键指标,然后逐层分解

      • 套用AARRR模型

        用户获取(Acquisition) -> 用户激活(Activation) -> 用户留存(Retention) -> 用户价值转化(Revenue) -> 用户推荐(Referral)

        用户生命周期价值

           将从单个用户端获取的收入分摊到使用产品的每一天,将所有活跃用户每天分摊到的金额进行汇总,就是当天的总的用户价值;若当天用户不活跃,将他分摊的金额计算为负值,将所有负值进行加总,就是损失的用户价值。用柱形图将这两个方向的数据表现出来
        
      • pipeline衡量销售流程

        一种漏斗,衡量整个管道的转化效率

    4.5 运营活动的量化

    • 优秀的运营活动的诸要素

      1. 明确的活动目标和预算

      2. 清晰的响应关系和执行流程

      3. 可靠的过程型指标

      4. 准确的结果型指标

      5. 科学合理的效果评价方式

      6. 知识的沉淀

      7. 聪明的负责人

    • 需要哪些过程型和结果型指标

      活动与指标最好是一对一关系

    • 如何评价运营活动

      活动是否有效

      为达成目标我们的投入产出比是否合适

    • 从纵向和横向两个角度全面对比

      活动前后的数据对比,一定要跨满一个业务周期

      基本流程

      1. 产生问题

      2. 利用ICE方法评估方案

        Impact(影响面大小) Confidence(提出者对执行效果的信心) 和 Easy(执行的难易度)

      3. 设计指标

        指标要对问题敏感

      4. 准备工具

      5. 选择对象

      6. 随机分组

      7. 假设检验

      8. 形成结论

      9. 传达部分

        无效也是一个有价值的结论

    • 一种更严谨的测试效果量化方法:DID

      1. 对比施予活动这个时间点后的实验组和对照组在指标上的差别

      2. 对实验组和对照组指标的数值差别进行显著性检验,看是否有足够里有判断他们是存在差别的

      3. difference in difference

    • 相似活动间效果的对比

      目标相同,时间相近可以对比

    • 运营活动量化的总结

    4.6 数据化运营的思维方式

    • 信度和效度思维

    • 平衡思维

    • 分类思维

    • 矩阵思维

      重要-紧急矩阵

    • 管道/漏斗思维

      漏斗的环节不该超过5个,漏斗各环节的百分比数值、量级不要超过100倍

    • 相关思维

    • 远近度思维

      确定好核心问题后,分析其他业务问题与该核心问题的远近程度,由近及远,有计划地分配自己的精力

    • 逻辑树思维

      下钻(分解)和上卷(汇总)

    • 时间序列思维

      • 距今越近的时间点,越要重视

      • 同比

      • 异常值出现时,必须重视

        通过添加平均值线和平均值加减一倍或两倍标准差线观察

    • 队列分析思维

      按一定规则,在某些维度上将观察对象切分,组成一个观察样本,然后观察这个样本的某些指标随着时间的演进而产生的变化

    • 循环/闭环思维

      不要用漏斗来衡量一个循环

    • 测试/对比思维

      • 决策前尽量做对比测试

      • 测试时要注意参照组的选择

    • 指数化思维

      遵循独立和穷尽(MECE);注意各指标的单位,标准化之;权重和要等于1

    • 极端化思维

      极端化是一种简化

    • 反向思维

      关注反常情况

    4.7 运营数据报告必备要素

    • 关键信息优先

    • 只有单向的逻辑线

    • 有选择地进行维度下钻

    • 不要展示过多的数据图

      精简图表

    • 附上明细数据集和制作过程

    • 给出实质性的建议

    5 快速提升量化分析能力

    5.1 朴素贝叶斯模型

    概率

    0和1之间的数字,表示特定结果发生的可能性
    

    几率

    某一特定结果发生与不发生的概率比

    似然

    两个相关的条件概率之比。给定B发生的情况下A发生的几率和A的整体几率之比

    贝叶斯公式

    P(A|B) = P(B|A) * P(A)/P(B)
    
    • 全概率公式

      P(E|P) = P(P|E) * P(E) /[P(E)P(P|E) + P(~E)P(P|~E)]

    • 让大数定律给你自信

      实验次数足够多时,某事件发生的概率一定会收敛于他的基本概率

    • 窥一斑而见全豹:中心极限定理

      一个大型样本的正确抽样与其代表的群体存在相似关系

    5.2 使用假设检验进行理性的推断

    • 统计分布是一切推断的基础

      这世界上的所有事件,其结果都遵从相对有限的几个概率分布

      正态分布;指数分布;卡方分布;BETA分布;POSSION分布;二项分布;T分布;F分布

    • 以正态分布为例,阐述假设检验的过程

      把一个不容易被推翻的假设当作原假设

      拒绝接受原假设,取决于我们认为在原假设成立的前提下,实验所得出的结论对应的概率为多小时是不正常的

    • 双侧检验与单侧检验

      原假设“B版本的跳出率不比A版本低”,即"B>=A?"。这样的原假设是有方向性的,即大于或者小于,这种假设被称为单侧检验。

      原假设是"B=A?", 其备择假设就是"B!=A", 称为双侧检验

    • 假设检验的细节补充

      • 标准差与标准误差的不同

      • 假设检验的检验指标和其对应的分布并不是局限的

      • 大数据不能替代统计推断,也不能替代假设检验

      • 关注两类错误

        拒绝了该接受的假设;接受了该拒绝的假设

        针对某个业务问题建立一个原假设,然后努力手机信息去挑战它,如果没有充分的证据证明原假设错误,那么就选择接受它

    5.2 利用方差分析辨别方案的有效性

    • 用户激活措施的有效性判断

      方差分析的前提

      • 每一组所对应的总体服从正态分布

      • 各总体的方差相同

        方差齐性分析检验

      • 从每一总体中抽取的样本是相互独立的

    • 运用置信区间增强数值估计的可靠性

      数据若服从T分布或者正态分布,它的95%置信区间就是点估计值加减1.96个标准差

    • 两两比较寻找最精确的结论

    • 理解方差分析的思维

    5.4 浅谈回归分析的应用

    • 因变量与自变量的相关关系是回归的基础

      只有在相关系数搞得两个指标之间建立回归模型才有意义

    • 线性回归建模的详细过程

      1. 重视回归建模前的分析过程

        数据分析,不仅仅是对建模后的结果进行解释,而是从业务理解,建模前的逻辑推理,模型的适用性分析,数据认知等,直到建模后的结果解释,一整套的过程

      2. 观察因变量与自变量的相关关系并进一步清洗数据

      3. 回归建模的结果怎么来

        最小二乘估计

      4. 利用现实数据建立模型并解读结果

        • 查柜回归模型的 Adjusted R Square,即拟合优度

        • 观察方差分析板块中的结果

        • 需要看回归模型的系数

        • 利用多元回归改进模型

    • 线性回归分析的注意点

    5.3 用时间序列分解模型观察波动

    • 怎样观察时间序列数据

      • X轴和Y轴

      • 起点和终点

      • 观察极值

      • 转折点

      • 周期性

      • 波动性

      • 与参考性的对比

    • 何为时间序列分解

      • T 长期趋势

      • S 季节变动

      • C 循环变动

      • I 随机波动

    • 时间序列分解的步骤解析

      • 用移动平均数分离出显性的周期性波动

      • 将业务周期效应和不规则变动进行区分

      • 观察数据波动的拐点,将时间序列分段

      • 利用线性回归,基于移动平均数计算长期趋势

      • 分离出循环效应和随机波动

    时间序列数据的预测值就是 长期趋势 + 循环效应 + 周期效应
    
    • 检验时间序列分解的效果

    • 时间序列分解方法的应用局限性

    5.6 如何优化调查问卷

    • 态度型问题,增加选项以支撑量化分析

      包含中间项, 即填写中间项的人表示没有态度

    • 问题要有必要切贴合业务需求

    • 设置过滤器,识别无效回答

      设置互证的问题,即过滤器

    • 避免双重问题和一重半问题

      双重问题即一个提问隐含两个问题

      一重半问题即某个选项实际上暗含了两个甚至多个选择

    • 动态地调查,设置问题库以保障多次调查的质量

    6 科学地决策

    运筹学问题

    6.1 从数据中形成决策

    管理科学是将定量因素(quantitative factor) 有关的管理问题通过应用科学的方法(scientific approach)辅助制定管理决策(managerial decision making) 的一门科学(discipline)

    6.2 线性规划是什么

    线性规划是应用数据模型对所研究的问题进行表述

    线性是指建模过程中的数学表达式的形式,即线性方程组

    规划就是要确定一组结论(一组数字),而不是一个结论(一个数字)

    线性规划一定要有目标,要有决策选项,要有约束条件,要有决策选项对目标的贡献,要有量化指标或者数字依据

    线性规划只是规划求解方法的一个细分项,还有整数规划,非线性规划,目标规划

    6.3 线性规划建模的操作过程

    • 建立逻辑清晰的表格

    • 设置输出单元格 目标单元格和可变单元格之间的运算关系

    • 设置线性规划建模参数

    6.4 如何从数据中形成决策

    6.5 4类典型且实用的线性规划模型

    资源分配模型

    成本收益平衡模型

    网络配送模型

    混合模型

    6.6 线性规划模型小结

    取决于我们有没有能力将现实问题抽象为线性规划问题

    7 应用优化的工具

    8 工作经验杂谈

    对业务的理解和思考,永远高于分析技术的选择

    相关文章

      网友评论

          本文标题:数据化运营速成手册笔记

          本文链接:https://www.haomeiwen.com/subject/gpaneftx.html