美文网首页R语言与统计分析数据科学与R语言生物&信息&统计
生物学研究中常见的统计检验方法(二:Wilcoxon test)

生物学研究中常见的统计检验方法(二:Wilcoxon test)

作者: Bio_zouxudong | 来源:发表于2020-01-19 17:14 被阅读0次

    上一篇我简单整理了t-test的用法和注意事项 (我们主要讲两个独立随机样本的t-test)。我们再回顾一下,t-test是参数统计检验方法,其应用的假设前提是检测变量的值服从同方差的正太分布。然而,在生物信息学分析中经常碰到不满足此假设的情况,例如比较两个基因在两组单细胞中的表达水平。此时常用的非参数检验方法是Wilcoxon rank sum test或者叫Mann Whitney U test.</p>

    两个独立样本的t-test是检验两个样本的均值是否相等。而相对的,两个独立样本的wilcoxon test 则是检验两个样本的中位数,或者说两个样本的分布是否有偏移。因此,wilcoxon test在计算统计量时是先将两个样本混到一起,然后对混合后的list进行从小到大排序,根据排序把两个样本的值分别转换成排序序数,最后比较两个样本的序数的大小。如果序数大的富集在其中一个样本,表明该样本相对另一个样本的值要更大,相反亦然。

    这里我就不具体讲怎么计算统计量的了,读者可参考下面链接【1】,里面有详细介绍如何计算统计量的步骤;链接【2】则有介绍wilcoxon test的p值是如何计算的。
    【1】(http://sphweb.bumc.bu.edu/otlt/MPH-Modules/BS/BS704_Nonparametric/BS704_Nonparametric4.html)
    【2】(https://data.library.virginia.edu/the-wilcoxon-rank-sum-test/)

    R语言里怎么做wilcoxon test:

    wilcox.test(vector_A,vector_B, alternative = "two.sided") # alternative also could be "greater" or "less"
    
    # 或者输入数据框
    wilcox.test(gene_expression ~ tissue_group, alternative = "two.sided") 
    # tissue_group 是名义变量,有两个水平,例如组织A和B,即比较A组织和B组织的基因表达水平
    

    wilcox.test的输出结果

    Wilcoxon rank sum test

    data: A and B
    W = 13, p-value = 0.04988
    alternative hypothesis: true location shift is not equal to 0

    总结
    wilcoxon test在分析中非常常用,我们经常能在读文章时发现到。通常当我们要比较两个样本时,首先考虑是否满足参数检验方法t-test的假设条件(即正太分布或者样本总量很大(>30),方差相同);若不满足,则可使用wilcoxon test代替。

    相关文章

      网友评论

        本文标题:生物学研究中常见的统计检验方法(二:Wilcoxon test)

        本文链接:https://www.haomeiwen.com/subject/xsvrzctx.html