p值矫正算法:https://www.sohu.com/a/129836640_655370
https://www.jianshu.com/p/5f3d91f8a6fc
来自于一点胡思乱想
我们在进行差异分析的时候,相当于对每个feature进行独立的假设检验,通过假设检验可以获得p值,由于一次高通量测序会检测到大量的基因,因此需要进行成千上万的假设检验,而每次我们都是在保证低于犯错阈值(一般是0.05)的基础上作出合理的结论。而由于假设检验次数太多,导致我们对所有检验全部正确的把握度会直线下降(犯错概率会积累),因此会出现假阳性(推断错误)。
我们对上述问题采取的补救措施是,通过对p值进行矫正,让p值不再那么小。常用的方法为BH法,基本公式为p.adj=p*n/i ,其中n为参与检验的基因个数,i为该p值按从小到大排列时所处的位置,同时第n次的结果应为第n次和第n+1次结果的最小值(详细描述见上述链接)。
与基因的差异性分析不同的是,我们在进行富集分析(基于超几何分布的,以及GSEA)的时候,并不是对数据库所有的term都感兴趣,相反,我们可能仅对很少一部分生物学过程感兴趣。也就是说,我们实际为想得到的结果所作的假设检验,可能仅仅只占富集软件所作次数的非常少的一部分,但是由于富集软件是对整个数据库做了分析,对每次结果的p值做了矫正,这就大大提高了p.adj的下限,使我们实际得到的有意义和显著性的term数大大缩水。
因此,我的疑问是,在做富集分析的时候,能否先选term再矫正p值?或者是否可以直接用p值而不考虑软件计算的p.adj?
网友评论