美文网首页数学
mutiple testing correction

mutiple testing correction

作者: BioLearner | 来源:发表于2019-05-25 20:29 被阅读4次

    目的:

    多次检验导致的大量假阳性
    1. 如果是小概率事件(< 5%),我们就抛弃了最初的美好假设(H0:没有差异),认为观测的和预期不一样(接
    受H1);
    2.但是依然有5%的概率,他们其实真的是一样的(小概率事件发生了)。那么我们就错误地否认了H0,这个犯错
    的概率是5%(假阳性);
    3.如果检验一次,犯错的概率是5%;检验10000次,犯错的次数就是500次,即额外多出了500次差异的结论(即
    使实际没有差异)。
    

    多重检验校正,提高阈值:

    1.提高阈值是为了控制假阳性的次数;
     2.于是出现了多重检验校正;
    

    方法:

    1、Bonferroni

    最简单而严厉的方法:Bonferroni法例如:如果检验10000次,将阈值降低到,阈值N=5%/ 10000=0.000005;即使检验10000次,N X 10000 = 5%。预期犯错的次数还是不到1次,抹杀了一切假阳性的概率。
    Bonferroni校正阈值的公式为:p*(1/n),p为普通的阈值,n为检验次数。
    最简单的方法:Bonferroni法问题:阈值太低(检验过于严格),结果找不到显著基因了(假阴性)。
    

    2、FDR

    FDR( False Discovery Rate)用比较温柔的方法调整,试图在假阳性和假阴性间达到平衡(即,不是不让假阳性出现,只是将假/真阳性比例控制在一定范围内);
    我们目标是试图得到一个校正后的阈值,来实现:在发现的差异结果中,假阳性控制在极低比例;例如,检验10000次,无论我们得到多少差异基因,能不能保证其中定性为差异基因结果中,错误率在5%以内。如果找到差异基因100个,我能做到拍着胸脯说:“假的差异基因不多于5个”。这就叫FDR< 5%。
    BH 方法的公式为:p*(m/k),其中的p为普通的p-value,m为检验次数,k为此次检验的p-value在所有检验次数中的排名。
    

    FDR、Q value、adjusted p value

    • P value:衡量假阳性率的指标(False positive rate) ;
    • q value:衡量错误发现率的指标(False discovery rate,简称FDR)。即:使用Q value的这个参数预估FDR。
    由于Q value 需要利用公式从P value 校正计算后得到,所以Q value 通常又被称为adjusted p value。
    所以一般情况下:我们可以认为Q value = FDR = adjusted p value,即三者是一个东西,虽然有些定义上的细微区别,但是问题也不大。
    

    P value 和 Q value的比较:

    P value < 5% 和 Q value < 5% 的区别
    P value
    只为某一次检验负责;
    这次检验的假阳性率(这次,我能犯错的概率)
    Q value
    Q value 是为所有次数的检验负责;
    

    FDR在R中实现---p.adjust()

    FDR阈值设置

    q-value 常用0.05
    但有时候看情况,如果候选物很多 就提高阈值,候选物不多就降低阈值,
    
    人类基因组大概编码15000过个基因,如果有2、3000个基因符合最低阈值0.05,就要提高标准,比如0.001
    细菌一般只编码2、3000个基因,如果有5,600都低于0.05,那就很多了,也需要提高标准,
    

    参考:
    多重检验的目的和方法
    多重检验校正
    多重假设检验与Bonferroni校正、FDR校正

    相关文章

      网友评论

        本文标题:mutiple testing correction

        本文链接:https://www.haomeiwen.com/subject/qmgzzqtx.html