从数据差异寻找经营的差异

统计学中，把不是因数据分散而偶然产生的差异叫作统计学上的显著性差异

在商业分析中，仅仅理解平均值和标准差是远远不够的。统计学上的显著性差异可以认为是业务差异导致的必然结果。商业分析就是要通过数据来倒推背后的原因。

在现实的商业分析中，比较几个对照组别中的平均值，一般不会超过2个标准差，如果有2个标准差那么大，不进行统计学上的数据运算也能明显发现差异。因此，统计学上需要用最少的数据来发现比2个标准差更小且更有现实意义、具有统计学上的显著性的差异。

基于差异的两种极端决策

为了用最少的数据发现比2SD（±2倍标准差）更小的统计学上的显著性差异，需要了解统计功效。

统计功效是指“在存在差异的假设成立的情况下，认为显著性差异存在的概率”

坦率的说我开始很难理解这个统计功效，我在阅读《统计思维》的基础上参考了简书作者年青的海岸的文章《统俗讲义之——如何计算统计功效(Statistical Power)》，这里阐述下我所理解的概念。

当我们遇到的两组数据，并希望发现其中的显著性差异时，会有这么一种情况，事实上存在差异，但是我们有可能能发现这个显著性差异的概率是1到0之间。当发现显著性差异的概率趋近1的时候，统计功效趋近0，可以理解为“我们100%可以发现这个显著性差异，还统计它干啥？”当发现显著性差异的概率趋近0的时候，统计功效趋近1，可以理解为“我们不可能发现这个显著性差异，赶紧让统计来发掘立功吧！”

所以当我们的两组数据的平均值偏离2SD以上，我们完全可以认为他们有差异了，也就不用检验显著性差异了，这种的统计功效很弱。当然也不能一味的提高统计功效，马克·吐温说过“坏掉的时钟每天业至少由两次指向正确的时刻”，这种情况就是“明明没有差异却主张差异存在“的错误，这种的统计功效很大，但是毫无意义。

统计学上，把“明明不存在差异却认为存在”的错误称为α错误，把“明明存在差异却没有发现”的错误称为β错误。可以理解α错误是过分激进的错误，β错误是过于保守的错误。（统计功效=1-β）

寻找科学权衡的方法

统计学在两种错误之间权衡取舍，但是也不能同时将两种错误降为0。我们可能会限制α和β错误发生的概率区间，对这种错误的允许程度被称为显著性水平。

在确定显著性水平后，在给定的显著性水平范围内，想办法将β错误最小化，或者将统计功效最大化。这种用来判断是否可以认为假设成立的方法在统计学中称为检验（统计性假设检验）。

在给定的显著性水平之下统计功效最高的检验方法，在统计学上则称为最强检验或最大功效检验。

在做任何决策之前一定需要样本或者全局的数据做分析，以样本做分析时首先需要了解样本量对统计结果的影响程度，也就是误差范围与数据数量的关系。统计学中误差的范围需要根据数据的数量和数据的分布方式（方差或标准差）来准确的计算。

统计学上的误差就是从有限数量的数据求出的平均值，以何种概率在何种程度上偏离“真值”。

从概率上偏离真值

从程度上偏离真值

原始数据分散程度越大，利用相同数量的数据求出来的平均值的偏离范围也就越大。