美文网首页
PH525x series - Rank tests

PH525x series - Rank tests

作者: 3between7 | 来源:发表于2019-11-22 13:25 被阅读0次

Wilcoxon Rank Sum Test

由于样本均数、标准差对离群值很敏感,而t检验是基于这些统计量进行的,所以t检验也对离群值比较敏感。此时,可以选择使用Wilcoxon rank test进行统计检验。Wilcoxon rank test检验的基本思想是:

1)合并所有数据;
2)将数据转换为秩次;
3)将秩次放回原组中;
4)计算秩次之和或平均值并进行检验。

具体过程:

set.seed(779) ##779 picked for illustration purposes
#生成满足正态分布的2组数据,每组25个值
N=25
x<- rnorm(N,0,1)
y<- rnorm(N,0,1)
#更改x的某个值,模拟离群值
x[1] <- 5
x[2] <- 7

library(rafalib)
mypar(1,2)
#绘制点带图,就是把点绘制在一条线段
stripchart(list(x,y),vertical=TRUE,ylim=c(-7,7),ylab="Observations",pch=21,bg=1)
abline(h=0)
#将x和y混在一起进行排序,返回每个值得秩次后放回原来的组
xrank <- rank(c(x,y))[seq(along=x)]
yrank <- rank(c(x,y))[-seq(along=y)]
#绘制点带图
stripchart(list(xrank,yrank),vertical=TRUE,ylab="Ranks",pch=21,bg=1,cex=1.25)
#将x中的元素一个一个拿出来与y放一起进行排序,求x的秩次,但是为啥减一?????
ws <- sapply(x,function(z) rank(c(z,y))[1]-1)
#在点带图上添加文字,文字内容是ws
text( rep(1.05,length(ws)), xrank, ws, cex=0.8)
stripchart.png
W <- sum(ws)

W是第一组中每个元素相对第二组的秩次之和,我们可以基于组合数学去计算W的p值,还可以利用CLT理论去计算,因为根据CLT理论,W大致满足正态分布。我们可以构建一个z-score,如下:

n1<-length(x);n2<-length(y)
Z <- (mean(ws)-n2/2)/ sqrt(n2*(n1+n2+1)/12/n1)
print(Z)
## [1] 1.523124

由于Z不够大所以得出的p值大于0.05,上述过程便是R中wilcox.test函数的计算过程的一部分。

参考文章

相关文章

  • PH525x series - Rank tests

    Wilcoxon Rank Sum Test 由于样本均数、标准差对离群值很敏感,而t检验是基于这些统计量进行的,...

  • PH525x series - Exercises - Line

    本篇文章是PH525x series课程中Linear models and randomness的练习章节,下面...

  • 线性回归模型

    在学习PH525x series - Chapter 5 - Linear Models时,觉得有些地方理解起来有...

  • PH525x series - Hierarchical Mod

    在上一篇文章PH525x series - Bayesian Statistics中是将层次模型应用到了棒球运动当...

  • PH525x series - Collinearity

    共线性 当自变量之间存在共线性时,线性回归得到的最小二乘估计的值并不唯一。共线性简单点说就是,设计矩阵中的某几列存...

  • PH525x series - Introduction to

    本章会对线性模型做一个大致的介绍,还是举例说明吧: 例1:自由落体问题 想象自己是16世纪的伽利略,正在研究自由落...

  • PH525x series - Projections

    前面的章节学的是降维、奇异值分解以及主成分分析的大致内容,本篇文章则开始更加详细的介绍这背后的数学原理,首先要学的...

  • PH525x series - Running PCA and

    在PCA相关的章节最后,系列教程的作者又专门写了一章“在R中运行PCA和SVD”,使用的还是tissuesGene...

  • PH525x series - Statistical Mode

    正连续值的分布 在生物学中有很多数据的分布特征是“strictly positive and heavy righ...

  • PH525x series - Principal Compon

    这一章,作者就是在数学原理方面又细讲了下主成分分析(PCA) 例子:双胞胎身高 作者首先使用双胞胎身高的例子来说明...

网友评论

      本文标题:PH525x series - Rank tests

      本文链接:https://www.haomeiwen.com/subject/qcgtwctx.html