功效分析
功效分析(Power Analysis)决定了什么样的样本量才能确保我们很高的概率正确地拒绝零假设,即两组之间没有差异。换句话说,如果我们使用功效分析推荐的样本量,我们就会知道,不管p值如何,我们都使用了足够的数据来做出一个好的决策。
功效(power)受到很多因素的影响,然而,主要有两个因素:
-
两个分布之间有多少重叠
-
样本量
做功效分析,首先要确定多少功效(power)我们想要?通常功效=0.8(0~1),也就是说正确拒绝零假设的概率是80%。我们要做的第二件事,是确定重要性的阈值(通常称为alpha, a)。阈值(alpha)=0.05(0~1)。最后,我们需要估计分布之间的重叠。重叠被总体平均值和标准差影响,将均值和标准差之间的距离合并成一个单一的指标(single metric)。被称为效(effect size)应量,也称为d。
-
Effect Size(d)=
- image-20201222134148482.png
-
汇总估计的标准差=
- image-20201222134310992.png
注意:有很多其他方法来计算效应量,这只是其中的一种。然而,一般来说,均值和标准差可以用先前的数据、文献检索,或者在最坏的情况下,根据经验的猜测来估计。一旦我们知道了效应量、功效、阈值,我们可以google"statistics power calculator",通过在线工具去计算样本容量(sample size)。
image-20201222134806205.png当两个分布重叠时,我们需要一个相对较大的样本容量才能有很大的功效。当样本容量很小时,我们对估计的平均值接近总体平均值信心不足,这种信心的缺乏反映在我们可能性很低的去正确地拒绝零假设。
相反的是,我们提高样本容量,我们更有信心估计的平均值接近总体平均值。因为极端观测值对估计平均值的位影响较小,当样本容量大时。估计的平均值越接近总体平均值,来自不同分布的平均值重叠越少。这增加了我们正确拒绝零假设的概率。当正确拒绝零假设的概率很高时,功效(power)就高。
网友评论