鲁棒性(robust)
人们经常使用正态分布去分析生命科学领域的数据,然而,因为设备的复杂性,常常会由于一些未知的过程而误导人们的分析。比如说,PCR的偏好性问题。我们举例来说明这一问题:
set.seed(1)
x=c(rnorm(100,0,1)) ##real distribution
x[23] <- 100 ##mistake made in 23th measurement
boxplot(x)
robust.png
统计学上将类似最上方的那个点称为离群值,几个离群值就可以破坏整个分析,平均值与方差都会受到离群值的影响,而中位数对离群值却是拥有鲁棒性的(也就是不会因为离群值的存在而受太大的影响)。
绝对中位差(The median absolute deviation,MAD)
在统计学中,绝对中位数MAD是对单变量数值型数据的样本偏差的一种鲁棒性测量。它的定义如下:
其中,1.4826是转换系数,作用是将MAD转换为标准差的无偏估计量。
斯皮尔曼相关(Spearman correlation)
相关分析同样会受到离群值的影响,而spearman相关并不会,因为spearman相关分析会将数据转变为秩次,然后再计算相关性。现在举例说明:
set.seed(1)
x=c(rnorm(100,0,1)) ##real distribution
x[23] <- 100 ##mistake made in 23th measurement
y=c(rnorm(100,0,1)) ##real distribution
y[23] <- 84 ##similar mistake made in 23th measurement
library(rafalib)
mypar(1,2)
plot(x,y,main=paste0("correlation=",round(cor(x,y),3)),pch=21,bg=1,xlim=c(-3,100),ylim=c(-3,100))
abline(0,1)
plot(rank(x),rank(y),main=paste0("correlation=",round(cor(x,y,method="spearman"),3)),pch=21,bg=1,xlim=c(-3,100),ylim=c(-3,100))
abline(0,1)
spearman.png
从图中可以看出,经过秩次转变后做出的相关系数一下降到了0.066,结果并未受到离群值的影响。
log比值的对称性
比值是不对称的,但经过log转换的比值却是对称的,数学上的推导过程如下:
网友评论