美文网首页R语言:TCGA数据分析
T检验:两样本数据的差异性

T检验:两样本数据的差异性

作者: Bioconductor | 来源:发表于2016-09-19 11:49 被阅读240次

    注:简书不支持数学公式。 带公式版本的,请浏览博客文章:T检验:两样本数据的差异性
    我最近在研究TCGA的RNAseq数据表达差异性的分析,常用的并且最简单的方法是统计量T检验。下面用一个例子来验证T检验的弊端问题所在。

    两配对样本的T检验是利用来自两个总体的配对样本,推断总体的两个均值是否显著差异,从而推断两个总体是否存在差异。

    通过对T检验的P值来判断是否存在差异,从而判断数据是否来自同一个样本。

    下面以sin(x) 为例来说明:
    代码:

    x=seq(-pi,pi,0.0001)
    y1=sin(x)
    y2=-y1
    
    png("test.png")
    plot(y1~x)
    lines(y2~x)
    dev.off()
    
    mean(y1)
    [1] 9.974243e-11
    mean(y2)
    [1] -9.974243e-11
    t.test(y1,y2)
    #结果
    
            Welch Two Sample t-test
    
    data:  y1 and y2
    t = 5.0003e-08, df = 125660, p-value = 1
    alternative hypothesis: true difference in means is not equal to 0
    95 percent confidence interval:
     -0.007819244  0.007819244
    sample estimates:
        mean of x     mean of y 
     9.974243e-11 -9.974243e-11 
    
    

    图如下所示:


    数据的图像

    可以明显发现,两个数据来自不同分布,差异很明显,但是T检验的P值却为1,表明不存在差异,与图像的结果明显不符合。这就是T检验的不足。

    关于T检验的改进方法介绍,在下一次分享中将会介绍。

    相关文章

      网友评论

        本文标题:T检验:两样本数据的差异性

        本文链接:https://www.haomeiwen.com/subject/akxnettx.html