在STHDA网站Normality Test in R 一文中,专门对正态性检验做了详致的说明,翻译并整理入下:
包括相关性、回归、t检验和方差分析(ANOVA)在内的许多统计检验都假设数据具有某些特定的特征。 他们要求数据遵循正态分布或高斯分布, 这些统计检验称为参数检验,因为它们的有效性取决于数据的分布。
在使用参数检验之前,我们应该执行一些初步测试,以确保满足检验假设。 在违反假设的情况下,建议使用非参数检验。
中心极限定理(Central Limit Theorems):
中心极限定理是概率论中最著名的结果之一。它提出,大量的独立随机变量之和具有近似于正态的分布。因此,它不仅提供了计算独立随机变量之和的近似概率的简单方法,而且有助于解释为什么有很多自然群体的经验频率呈现出钟形(即正态)曲线这一事实,因此中心极限定理这个结论使正态分布在数理统计中具有很重要的地位,也使正态分布有了广泛的应用。
可视化方法(Visual methods):
密度图和Q-Q图可用于检查正态性。
- Density plot: 密度图提供了有关分布是否呈钟形的视觉判断。
rm(list = ls())
library("ggpubr")
my_data <- ToothGrowth
# 如果样本量足够大(n> 30),则可以忽略数据的分布并使用参数测试。
ggdensity(my_data$len,
main = "Density plot of tooth length",
xlab = "Tooth length")
Rplot01.png
- Q-Q plot:Q-Q图(或分位数图)绘制了给定样本与正态分布之间的相关性。 还绘制了45度参考线。
library(ggpubr)
ggqqplot(my_data$len)
# 或者
library("car")
qqPlot(my_data$len)
Rplot02.png
Rplot03.png
正态性检验(Normality test):
可视化检查通常是不可靠的。 可以使用显著性检验将样本分布与正常分布进行比较,以确定数据是否显示出与正态性的严重偏差。
正态性检验有几种方法,例如Kolmogorov-Smirnov(K-S)和Shapiro-Wilk。
Shapiro-Wilk是广泛适用的正态性检验,它比K-S更有力。 它基于数据和相应的正常分数之间的相关性。
shapiro.test(my_data$len)
Shapiro-Wilk normality test
data: my_data$len
W = 0.96743, p-value = 0.1091
从输出来看,p=0.1091> 0.05意味着数据的分布与正态分布没有显着差异。 换句话说,我们可以假设正常性。
参考资料:
网友评论