当数据严重偏离正态性时,如何分析呢?
1、非参数的Wilcoxon秩和检验
(1)“非参数”意味着,我们忽略掉均值之类的东西,而是只关注总体概率分布位置。
(2)Wilcoxon秩和检验不是对原始数据进行分析,而是将原始数据进行排序,以其秩次进行分析,这样可以避免严重偏态问题。
2、Wilcoxon秩和检验的大致思想
(1)假定有两组例数分别为n1和n2,首先将两组数据混合后排序,每个数值都有相同的机会排序为1,2, …,n1+n2 。不难理解,如果两组样本来自相同的总体,那么理论上两组排序后的秩次之和(秩和)应该相等,都等于(1+2+3+···+n1+n2)/2。
(2)由于抽样误差的存在,两组数据排序后的秩和不可能正好都等千(1+2+3+···+n1+n2)/2, 但肯定应该相差不大。如果差别太大,那就说明一开始的假设(两组分布位置相等)可能有问题。
3、公司A和B的年薪比较
有两家公司A和B, 假定两家公司都有10人,公司A中每人的年薪都是10万元;公司B中1人的年薪是91万元,其余9人的年薪为1万元。现在比较一下两家公司的年薪分布位置是否相等。
如果用t检验比较均值,则不难计算出,两家公司的平均年薪都是10万元,完全相等。-----结果不合理
(1)如果用Wilcoxon 秩和检验,首先将这20 个数据混合排序,则可以得到排序后的秩次,这里相同的秩次取其平均,如共有9个1, 理论上秩次应该是1~9, 但由千都是1, 所以取了(1 +2+· · ·+9)/9=5这样一个秩次平均值。
(2)理论上,如果两组分布位置相等,那么它们的秩和应该都是(1+ 2+ 3+· ·-+ 20)/2= 105。而实际上,公司A的秩和为65, 公司B的秩和为145, 与期望值105有一定差距。那我们就需要考虑,如果无效假设成立(两组分布位置相等),那么出现40及以上这么大的差异,概率有多大?或者说,这么大的差异有可能是偶然性造成的吗?
4、Wilcoxon 秩和检验的结果
image.png在两组分布位置相等的假设下,出现相差40 这么大( 甚至更大)的秩和,概率只有0.08%, 因此可以推翻无效假设,认为两组分布位置并不相等。(轶和检验注重位置)
网友评论