mutiple testing correction

作者: BioLearner | 来源:发表于2019-05-25 20:29 被阅读4次

目的：

多次检验导致的大量假阳性
1. 如果是小概率事件（< 5%），我们就抛弃了最初的美好假设（H0：没有差异），认为观测的和预期不一样（接
受H1）；
2.但是依然有5%的概率，他们其实真的是一样的（小概率事件发生了）。那么我们就错误地否认了H0，这个犯错
的概率是5%（假阳性）；
3.如果检验一次，犯错的概率是5%；检验10000次，犯错的次数就是500次，即额外多出了500次差异的结论（即
使实际没有差异）。

多重检验校正，提高阈值：

1.提高阈值是为了控制假阳性的次数；
 2.于是出现了多重检验校正；

方法：

1、Bonferroni

最简单而严厉的方法：Bonferroni法例如：如果检验10000次，将阈值降低到，阈值N=5%/ 10000=0.000005；即使检验10000次，N X 10000 = 5%。预期犯错的次数还是不到1次，抹杀了一切假阳性的概率。
Bonferroni校正阈值的公式为：p*(1/n)，p为普通的阈值，n为检验次数。
最简单的方法：Bonferroni法问题：阈值太低（检验过于严格），结果找不到显著基因了（假阴性）。

2、FDR

FDR（ False Discovery Rate）用比较温柔的方法调整，试图在假阳性和假阴性间达到平衡(即，不是不让假阳性出现，只是将假/真阳性比例控制在一定范围内）；
我们目标是试图得到一个校正后的阈值，来实现：在发现的差异结果中，假阳性控制在极低比例；例如，检验10000次，无论我们得到多少差异基因，能不能保证其中定性为差异基因结果中，错误率在5%以内。如果找到差异基因100个，我能做到拍着胸脯说：“假的差异基因不多于5个”。这就叫FDR< 5%。
BH 方法的公式为：p*(m/k)，其中的p为普通的p-value，m为检验次数，k为此次检验的p-value在所有检验次数中的排名。

FDR、Q value、adjusted p value

• P value：衡量假阳性率的指标（False positive rate） ；
• q value：衡量错误发现率的指标（False discovery rate，简称FDR）。即：使用Q value的这个参数预估FDR。
由于Q value 需要利用公式从P value 校正计算后得到，所以Q value 通常又被称为adjusted p value。
所以一般情况下：我们可以认为Q value = FDR = adjusted p value，即三者是一个东西，虽然有些定义上的细微区别，但是问题也不大。

P value 和 Q value的比较：

P value < 5% 和 Q value < 5% 的区别
P value
只为某一次检验负责；
这次检验的假阳性率（这次，我能犯错的概率）
Q value
Q value 是为所有次数的检验负责；

FDR在R中实现---p.adjust()

FDR阈值设置

q-value 常用0.05
但有时候看情况，如果候选物很多 就提高阈值，候选物不多就降低阈值，

人类基因组大概编码15000过个基因，如果有2、3000个基因符合最低阈值0.05，就要提高标准，比如0.001
细菌一般只编码2、3000个基因，如果有5，600都低于0.05，那就很多了，也需要提高标准，

参考：
多重检验的目的和方法
 多重检验校正
 多重假设检验与Bonferroni校正、FDR校正

网友评论

数学

本文标题：mutiple testing correction

本文链接：https://www.haomeiwen.com/subject/qmgzzqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

mutiple testing correction

目的：

多重检验校正，提高阈值：

方法：

1、Bonferroni

2、FDR

FDR、Q value、adjusted p value

P value 和 Q value的比较：

FDR在R中实现---p.adjust()

FDR阈值设置

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

数学