一个有意思的R小函数-sweep

作者: 刘小泽 | 来源:发表于2019-07-17 22:08 被阅读63次

一个有意思的R小函数-sweep
R中的sweep函数
R中的sweep函数
【R>>sweep】array迭代
R函数-sweep完成标准化
20190427-R语言循环函数sweep
R中 if短句+小函数
R 中for 循环替代函数：apply、Map及purrr::m
sweep
如何使用R的sweep函数对表达矩阵进行标准化

刘小泽写于19.7.17
哇，一转眼好多天没更新啦，不行不行要向隔壁花花学习。如果你不知道花花是谁，请关注我们的公众号“生信星球”
今天学习到了一个函数sweep

前言

对数据框、矩阵的行或列批量进行计算可能会使用apply函数，这一点我们也是经常使用的，举个例子：我们想计算一个矩阵的行、列均值

> test <- matrix(1:12,ncol = 4,byrow = T)
> test
     [,1] [,2] [,3] [,4]
[1,]    1    2    3    4
[2,]    5    6    7    8
[3,]    9   10   11   12
> colmean <- apply(test, 2, mean)
> colmean
[1] 5 6 7 8
> rowmean <- apply(test,1, mean)
> rowmean
[1]  2.5  6.5 10.5

对行或列进行操作，只需要指定1或者2即可，至于对它们做什么嘛，除了使用现成的统计函数，如mean以外，其实还有更复杂的公式可以用，只要你能想出来

testfun<-function(x){
m=1
for (i in x){m=m*i}
return(m)
}
# 它的目的就是为了计算所有数的乘积

然后apply操作一下

> multest <- apply(test, 2, testfun)
> multest
[1]  45 120 231 384

从上面可以看到，apply实现的，不管function中间过程多么复杂，它最后都是对某个数值进行操作，或者对行/列进行一个统一的操作

那么，如果是想对行/列进行不同操作呢？比如，对每一列增加不同的数值，使用apply是不是还要用到循环呢？略显麻烦

sweep登场

R语言是很强大的，可以在apply的统一操作基础上，增加个性化服务(比如对每行/列使用不同的数值进行计算，而且可以指定计算方法)

例如，想要将1-3行分别减去对应的行号1-3，就可以这样：

> sweep(test,1,c(1,2,3),"-")
     [,1] [,2] [,3] [,4]
[1,]    0    1    2    3
[2,]    3    4    5    6
[3,]    6    7    8    9

第一个位置test这里需要是矩阵或数据框；
第二个位置1和2选一个，原理和apply一样
第三个位置是要操作的向量，如果要对行操作，那么这个向量长度就要和行数一样
第四个位置是计算符，比如：+ - * / < > 等

怎样利用sweep进行矩阵的标准化？

基因表达矩阵中的基因表达量差异有时会很大，如果直接使用可能会造成这种情况：画的热图发生只有某个点颜色很深，表达量很高，而其他的差异都被"盖住了"

因此需要进行标准化，例如用z-score：(表达量-均值)/标准差

# 行为基因，列为样本，现在对基因进行标准化
standardize <- function(x) {
rowmean <- apply(x, 1, mean)
rowsd <- apply(x, 1, sd)  
rv <- sweep(x, 1, rowmean,"-")  #表达量-均值
rv <- sweep(rv, 1, rowsd, "/")  #再除以标准差
return(rv)
}

设定一个模拟数据

> test <- as.data.frame(test)
> colnames(test) <- paste0("sample",1:4)
> rownames(test) <- paste0("gene",1:3)
> test
      sample1 sample2 sample3 sample4
gene1       1       2       3       4
gene2       5       6       7       8
gene3       9      10      11      12
# 使用设定好的函数
> standardize(test)
        sample1    sample2   sample3  sample4
gene1 -1.161895 -0.3872983 0.3872983 1.161895
gene2 -1.161895 -0.3872983 0.3872983 1.161895
gene3 -1.161895 -0.3872983 0.3872983 1.161895

然后用内置函数做一下看看

> t(scale(t(test),scale=T))
        sample1    sample2   sample3  sample4
gene1 -1.161895 -0.3872983 0.3872983 1.161895
gene2 -1.161895 -0.3872983 0.3872983 1.161895
gene3 -1.161895 -0.3872983 0.3872983 1.161895