关于P-value，及显著与多重检验校正

作者: sober01 | 来源:发表于2017-10-14 16:34 被阅读40次

P-value：通俗的说就是--犯错误的概率。

在任何一个严谨的科学测量中，我们判断两个数值是否有差异，必须要考虑这个差异可能来源两个方面：可能是真实的差异，也可能来自检测误差。而一般的显著检验的目的，就是计算出观测到的差异来源于随机误差的概率，这样才能评判我们的结论是否可靠。例如，通常说的P value（E value 是blast中一种特殊的p value）小于 1%，就是说我们做出了一个判断，但这个判断犯错的概率是1%（这里就是假阳性率，False positive rate）。虽然可能犯错，因为是这个属于小概率事件，我们就忍了吧，于是接受了这个判断。
但是，在很多科学实验中，在某些情况下，我们要做多次判断。例如，我们要判断两组样本对应的10000个基因的表达量是否在组间存在差异：基因A是否有差异？基因B是否有差异？基因C是否有差异？….. ，如此下去，我们要进行10000次比较。如果我们以p value 1% (假阳性的概率是1%)来作为阈值，并假设每次判断都是彼此独立的，那么即使这10000个基因实际上都没有差异，我们也可能会得出有100个差异基因的结论（阳性结果的错误率为100%，也就是下文要提到的FDR (False Discovery Rate )值为100%）。也就是说，一个小效率事件就在多次反复尝试后，变成了一个多次出现的事件（也就是俗话说的，“常在河边走，怎能不湿鞋”）。如果这10000个基因中有100个基因真实存在差异的，在 p vlaue为1%的阈值标准下，我们可能会得出199个基因有差异的结论（阳性结果的错误率，即FDR值约为50%）。从这里，我们可以看到，在进行多次检验后（也就是所说的多重检验，multiple test），那么基于单次比较的检验标准将变得过于宽松，使得阳性结果中的错误率（FDR值）已经大到令人不可忍受的地步。
那么怎么办？最好的办法就提高判断的标准（p value），单次判断的犯错概率就会下降，那么总体犯错的概率也将下降（类似，在多次相亲中，你可以通过提高标准来减少看走眼的概率）。在多重检验中提高判断标准的方法，我们就称之为“多重检验校正”。

最简单严厉的方法要属于Bonferroni校正。p-value除以检验次数，但标准太高使得假阴性率提高了。
折中方案：目前在RNA-seq中，使用最普遍的是Benjamini and Hochberg在1995年第一次提出的FDR(FalseDiscovery Rate)的概念以及相应的多重检验校正方法。比p-value更严格比Bonferroni校正更宽松。FDR就是一种控制阳性结果中的假阳性率的思路。在前面的例子的10000次基因差异比较中，如果我们使用FDR为1%的标准进行检验，最后检测出显著差异（阳性结果）的基因数是100个，那么其中假阳性的个数就可以被控制在1个，剩下的99个则是真实的差异（阳性结果中的假阳性率被控制在1%，而 p value 1%是指单次检验的假阳性率为1%，两者概念不同）。FDR的控制方法，延伸出了一个被校正后的p value的概念（比P value更严格），称之为Q value，这个概念是最早是John Storey（2002）提出的。在一般情况下，大家可以简单一些理解，FDR、Q value、Adjusted p-value指的是一个东西。

参考：http://www.omicshare.com/forum/thread-260-1-12.html

网友评论

RNA-seq

本文标题：关于P-value，及显著与多重检验校正

本文链接：https://www.haomeiwen.com/subject/uutfuxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

关于P-value，及显著与多重检验校正

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

RNA-seq