美文网首页R计算机@linux_python_R 技术帖
一个有意思的R小函数-sweep

一个有意思的R小函数-sweep

作者: 刘小泽 | 来源:发表于2019-07-17 22:08 被阅读63次

    刘小泽写于19.7.17
    哇,一转眼好多天没更新啦,不行不行要向隔壁花花学习。如果你不知道花花是谁,请关注我们的公众号“生信星球”
    今天学习到了一个函数sweep

    前言

    对数据框、矩阵的行或列批量进行计算可能会使用apply函数,这一点我们也是经常使用的,举个例子:我们想计算一个矩阵的行、列均值

    > test <- matrix(1:12,ncol = 4,byrow = T)
    > test
         [,1] [,2] [,3] [,4]
    [1,]    1    2    3    4
    [2,]    5    6    7    8
    [3,]    9   10   11   12
    > colmean <- apply(test, 2, mean)
    > colmean
    [1] 5 6 7 8
    > rowmean <- apply(test,1, mean)
    > rowmean
    [1]  2.5  6.5 10.5
    

    对行或列进行操作,只需要指定1或者2即可,至于对它们做什么嘛,除了使用现成的统计函数,如mean以外,其实还有更复杂的公式可以用,只要你能想出来

    testfun<-function(x){
    m=1
    for (i in x){m=m*i}
    return(m)
    }
    # 它的目的就是为了计算所有数的乘积
    

    然后apply操作一下

    > multest <- apply(test, 2, testfun)
    > multest
    [1]  45 120 231 384
    

    从上面可以看到,apply实现的,不管function中间过程多么复杂,它最后都是对某个数值进行操作,或者对行/列进行一个统一的操作

    那么,如果是想对行/列进行不同操作呢?比如,对每一列增加不同的数值,使用apply是不是还要用到循环呢?略显麻烦

    sweep登场

    R语言是很强大的,可以在apply的统一操作基础上,增加个性化服务(比如对每行/列使用不同的数值进行计算,而且可以指定计算方法)

    例如,想要将1-3行分别减去对应的行号1-3,就可以这样:

    > sweep(test,1,c(1,2,3),"-")
         [,1] [,2] [,3] [,4]
    [1,]    0    1    2    3
    [2,]    3    4    5    6
    [3,]    6    7    8    9
    
    • 第一个位置test这里需要是矩阵或数据框;
    • 第二个位置12选一个,原理和apply一样
    • 第三个位置是要操作的向量,如果要对行操作,那么这个向量长度就要和行数一样
    • 第四个位置是计算符,比如:+ - * / < >

    怎样利用sweep进行矩阵的标准化?

    基因表达矩阵中的基因表达量差异有时会很大,如果直接使用可能会造成这种情况:画的热图发生只有某个点颜色很深,表达量很高,而其他的差异都被"盖住了"

    因此需要进行标准化,例如用z-score:(表达量-均值)/标准差

    # 行为基因,列为样本,现在对基因进行标准化
    standardize <- function(x) {
    rowmean <- apply(x, 1, mean)
    rowsd <- apply(x, 1, sd)  
    rv <- sweep(x, 1, rowmean,"-")  #表达量-均值
    rv <- sweep(rv, 1, rowsd, "/")  #再除以标准差
    return(rv)
    }
    

    设定一个模拟数据

    > test <- as.data.frame(test)
    > colnames(test) <- paste0("sample",1:4)
    > rownames(test) <- paste0("gene",1:3)
    > test
          sample1 sample2 sample3 sample4
    gene1       1       2       3       4
    gene2       5       6       7       8
    gene3       9      10      11      12
    # 使用设定好的函数
    > standardize(test)
            sample1    sample2   sample3  sample4
    gene1 -1.161895 -0.3872983 0.3872983 1.161895
    gene2 -1.161895 -0.3872983 0.3872983 1.161895
    gene3 -1.161895 -0.3872983 0.3872983 1.161895
    

    然后用内置函数做一下看看

    > t(scale(t(test),scale=T))
            sample1    sample2   sample3  sample4
    gene1 -1.161895 -0.3872983 0.3872983 1.161895
    gene2 -1.161895 -0.3872983 0.3872983 1.161895
    gene3 -1.161895 -0.3872983 0.3872983 1.161895
    

    这里要注意的是scale函数是对列进行操作的,因此对基因表达量进行标准化,就要先转置,最后转回来

    可以看到和我们设定的函数结果一致,从另一个方面说明scale函数也是应用的z-score进行的标准化

    结尾

    如果脑海中有一个公式的话,可以说,apply完成了值的获得,sweep完成了符号的运算


    欢迎关注我们的公众号~_~  
    我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到jieandze1314@gmail.com

    Welcome to our bioinfoplanet!

    相关文章

      网友评论

        本文标题:一个有意思的R小函数-sweep

        本文链接:https://www.haomeiwen.com/subject/mskhlctx.html