数据分析的基本方法在于统计。基本的内容一方面在于设计统计指标体系,反映业务本质,及业务各环节间关系。同时,要反省指标结果是否可信,体系建设是否合理。
进一步发现数据中的规律,从而确定业务模型。建模之后的优化,决策(机器学习等方法的后续运用)才能有效展开。
做好数据分析的关键在于去了解一线业务,跟进一线情况,切忌理所当然的“数据空想”。只有熟悉业务,才可能对数据中内涵的价值予以判断,并提供建议。核心的活动是基于业务理解的思考与对数据的推断。
使用常规统计指标的指标体系建设,全在对业务的合理描述,各种度量的选择,要结合经验灵活搭配,不多赘述。
在数据分析中,统计指标会有很多陷阱,需要注意提防。常见的统计陷阱有:
- 对相关系数的误解
即相关性不等同于因果性。 - 平均数的误导
要结合数据分布,来判断平均数是否能反映总体的一般状况。注意“被平均”的现象。 - 图形的误导
绘图师,表轴的粒度大小,对图形的结果缩放有影响。选择适当的轴度量对于直观展示数据情况很重要。 - 缺少比较或不匹配
很多问题如果确实了对照组,就毫无意义。尤其对与评估策略效果的问题,选定恰当合理的对比项目是必要的。 - 抽样带来的偏性,使数据缺乏真实性
抽样方法的不恰当对样本造成了怎样的偏性?这些偏性对结论有什么影响?
在统计理论中,试验设计是重要的部分。 - 样本不充分
样本需足以反映总体。 - 混淆的推断
最普通的表现是把看上去非常相似,但完全不同的事物混淆在一起,得到了似是而非的结论。 - 辛普森悖论
一种常见的统计矛盾,在某条件下的两组数据,分别讨论时,均满足某种性质,但合并数据厚,则导致相反的性质。
网友评论