对于两组数据间的差异分析,最常见的方法就是使用T检验。当拓展到多组(三组及以上)时,使用T检验逐一两两比较的方法无疑是低效的,不仅仅由于需要的检验次数增多,而且发生I型错误(拒绝真)的概率也会增大。Fisher提出一种广义T检验的方法来比较三组及以上总体的均值,称为方差分析(ANOVA)。
几种常见的ANOVA包含单因素方差分析(单因素ANOVA)、单因素协方差分析(ANCOVA)、双因素方差分析(双因素ANOVA)、重复测量方差分析(重复测量ANOVA)、多元方差分析(MANOVA)等。
前面我们在21.1中也用到过,与T检验相似,ANOVA同样要求数据服从正态分布;此外,ANOVA还建立在各组方差相等的基础上。因此,在执行单因素ANOVA之前,我们首先应当对数据进行正态性分布验证,以及方差齐性检验。
==========正态性检验=========
正态性检验,这里使用Q-Q图来检验正态性假设。除了Q-Q图,其它的常用方法还有如Shapiro-Wilk检验等。
在统计学中,QQ图(Q代表分位数Quantile)是一种通过比较两个概率分布的分位数对这两个概率分布进行比较的概率图方法。首先选定分位数的对应概率区间集合,在此概率区间上,点(x,y)对应于第一个分布的一个分位数x和第二个分布在和x相同概率区间上相同的分位数。因此画出的是一条含参数的曲线,参数为概率区间的分割数。
如果被比较的两个分布比较相似,则其QQ图近似地位于y = x上。如果两个分布线性相关,则QQ图上的点近似地落在一条直线上,但并不一定是y = x。QQ图同样可以用来估计一个分布的位置参数。
QQ图可以比较概率分布的形状,从图形上显示两个分布的位置,尺度和偏度等性质是否相似或不同。它可以用来比较一组数据的经验分布和理论分布是否一致。另外,QQ图也是一种比较两组数据背后的随机变量分布的非参数方法。一般来说,当比较两组样本时,QQ图是一种比直方图更加有效的方法,但是理解QQ图需要更多的背景知识,我们又详细的查了点资料(https://blog.csdn.net/grl18840839630/article/details/120503498)。
一、问题:
检验一序列是否服从正态分布。序列为X = {x1,x2...xN}
二、QQ图验证法:
1、将原序列按开序重新排列
x1<x2<...xi...<xN
2、计算QQ序列:
(1)样本均值和标准差
(2)分位数:
通过正态分布表可以查得 ti对应的分位数Q',计算如下:
3、画出QQ图
即Q--Q'图,与y = x线进行比较,若基本吻合则原序列服从正态分布,若相差较大则不服从正态分布。
4、接受区间:
采用Michael拟合优度检验方法给出QQ图的接受区间,既一定的误差区间。
我们举例说明,判断如下数据是否服从正态分布:42、65、75、59、57、68、54、55、78、71
整理并计算得:
平均值:62.4,方差:11.0373,显著水平a=0.1,Q1、Q2,Q'1、Q'2为界值,画Q-Q'图,即y=x,如下所示:
一般,只要散点均匀的分布在y=x周围,一定的置信区间内,则说明满足正态分布。
我们用R来验证此数据:
a <- c(42,65,75,59,57,68,54,55,78,71)
#计算分位数,均值,pnorm(mean=mean(a), sd=sqrt(a), a)是理论分布值
plot((rank(a)-0.5)/length(a), pnorm(mean=mean(a), sd=sqrt(a), a), main="PP plot")
#绘制45度线
abline(0, 1, col=2, lwd=2)
也可以用qqPlot来绘制:
qqPlot(a, main="qq plot", col="blue", col.lines="red")
网友评论