总结:
1、定义数据的维度和指标:维度分类,指标定量
变量分类:分类变量、有序变量(有大小关系不能四则运算,年级、年龄段)、数值变量(数字型)、逻辑变量(二元分类变量,性别、阴阳性)
2、图表认知
- 散点图:核心在于发现变量之间的关系
气泡图反应三个kpi的变量关系
波士顿矩阵:分类矩阵形成决策,难点在于如何构建分类指标,即散点图横纵坐标分别代表什么且两个指标要相互独立
描述统计→散点图(观察变量间的关系)→分析建模获得结论→由其他简单图表表达简单结论
- 柱形图:核心思想是对比,有对比才有信息
最大最小值标准化 N=(X–min)/(max-min)
-
折线图:核心是趋势变化
-
面积图:观察动态数据结构变化
-
雷达图:进行静态的多维度对比
3、图表元素
-
坐标轴设置:最大值和最小值决定了坐标轴丈量范围。坐标轴是否合理取决于是否展示出足够差别、它的范围是否大于数据序列的四倍标准差(excel标准差函数stdev.p)
-
线性趋势线:实质是一条一元一次线性回归方程,它衡量了两组数据间的线性关系,即随着一个变量的增长另一个变量怎么变。要结合R平方值看,大于0.6才有意义,R平方值代表了现实数据可解释度
注意:要对变量进行回归前要先看两个变量关系是否有现实意义,避免伪回归先求相关系数,若是相关系数太低,建立回归关系就没有意义。
-
移动平均:在时间序列中,N期移动平均就是当期值为终点,计算过去N个值的算术平均数。意义在于预测趋势。(线性回归预测是通过变量之间关系,移动平均预测是通过序列本身信息实现)
-
涨跌线:添加图表元素→涨跌线,目标和实际销量的差值
4、数据运营流程:
业务理解→数据需求提取→定性分析→数据获取→数据清洗→数据认知→建模分析→结果呈现→策略建议
数据认知:数据源质量→数据集质量→数据类型→平均水平→数据分布→量变关系→多维交叉顺序
5、数据理解
-
协方差:衡量数据之间变动关系
-
相关系数:correl函数,衡量变动方向和变动幅度,不能表达因果关系
-
66原则:谁什么、有多少、在哪里、什么时候、怎么样、为什么
网友评论