什么是 ANOVA
方差分析(ANOVA)可以确定三个或更多组的均值是否不同。 ANOVA使用F-test来检验均值是否相等。在本文中,我将使用 One-Way ANOVA示例向展示ANOVA和F检验的工作原理。
什么是F-Score
F统计量是两个方差的比率,它以Ronald Fisher爵士的名字命名。方差测量均值周围数据点的离散度。当各个数据点趋向于从均值进一步下降时,会出现更高的方差。 F-test 用来检测几组数据的均值是否相同。 而常用的T-test 用来检测2住数据的均值是否相同。
公式
或者
其中 已解释差异 (explained variance) 或者 组间差异(between-group variability) 为:
image.png
其中 未解释差异 (unexplained variance) 或者 组内差异(within-group variability) 为:
image.png
- K: 有多少组数据
- N: 所以有组数据加起来,有多少样本(总样本数)
- \barY: 所有样本的均值 (简书bug,Latex无法正确处理 \bar)
- \bar: 第i组均值 (简书bug,Latex无法正确处理 \bar)
- : 第 i 组样本数
两个自由度
公式解释
- 分子: 每组均值与整体均值的差异, 如果每组均值相差的多, 分子就大
- 分母: 每组组内的差异, 如果每组内样本分布都比较分散, 分母就大
下图中, 左图中三个分布比较接近,组间差异小, 分子小, F值小。 右图三个分布均值差距大,分子大, F值大。
image.pngF 分布
每做一次计算都会的得到一个 F-score, 假设,我们不停的取样, 不停的做实验, 由于每次取样的值都不同, 就会的到不同的 F值, 利用这些不同 F 值, 我们就可以获得 F 分布。
F 分布 (F-distribution) 是由其2个自由度决定的
好消息是,统计学家已经帮我们把常用的分布都已经算好了。
image.pngF 检验
有了 F-Score 和 F分布以后, 我们就以判断出计算出的 FScore 处于分布的哪个位置, 是否比较极端。 比如, 我们的到的 F-Score 是 3.3, df1=3, df2=36 (4个group,总共40个样本), 结合 F 分布就是
image.png解读为: 在当前自由度确定的分布下, F-scroe 大于等于3.3 的概率。 计算出来是0.03116, 小于 0.05。 也就意味着, 这些group 的均值并不相等。
总结
方差分析使用F检验来确定组均值之间的变异性是否大于组内观测值的变异性。如果该比例足够大,则可以得出结论,并非所有均值均相等。
这使我们回到了为什么我们分析变异来对均值做出判断的原因。想一想这个问题:“这个群体的均值不同吗?” 其实这个问题的潜台词是, 每个组的均值差异如何。毕竟,如果组的均值没有变化,或者变化幅度不超过随机变化允许的范围,那么就不能说均值是不同的。这就是为什么要使用方差分析来检验均值的原因。
F检验 只能告诉我们, 几个group 的均值是否相同。但是不能告诉我们,到底哪个group 和其他group 均值不同!!! 如果想知道到底组均值不同, 得用 Post Hoc Tests
参考资料
网友评论