FDR
如果您曾经见过或做过任何与高通量测序有关的事情,那么您可能在之前就听说过错误发现率(false discovery rates)(FDR),你可能已经使用过FDR,它是如何来的,它是如何计算的。错误发现率是一种清除看起来不错的坏数据的工具。
例子:RNA-Seq测量基因表达,在这个例子中,想象我们看到的是一种正常的“野生型”老鼠。稍后,我们会将它们与接受药物治疗的老鼠进行比较。“正常”的老鼠被称为“野生型”,这不是很有趣吗?如果有人说我是“野生型”,我想他们也不会认为我是“正常”的。x轴是样本分组,y轴是gene X的reads,RNA-seq并不是完美的,不同的样本,总是有一点不同,所以每次我们测量表达时,我们会得到稍微不同的值。大部分的值与均值很接近,很少情况下,我们会得到一个比平均值大的多的值和一个比平均值小的多的值。
![](https://img.haomeiwen.com/i25231873/604962f8dea7ff2b.png)
我们可以把这些值放到正态分布曲线中去,其中大多数都位于中间区域,数据较大的值可能位于曲线的右侧,较小的位于左侧。
![](https://img.haomeiwen.com/i25231873/06b4d6b70badfd17.png)
想象我们我们对三只小鼠做了RNA-Seq,为样本1,因为这些测量值接近均值,所以它们来自分布的中间。我们又测了三个样本,为样本2(样本1和样本2都来自野生型样本),它们来自分布的中间。如果我们对样本1和样本2进行统计检验,p值将会很大(> 0.05),因为两个样本重叠。
![](https://img.haomeiwen.com/i25231873/d936ad2691e80e56.png)
很少情况下,我们会得到两个样本不重叠。当这种情况发生时,p值< 0.05,这叫做假阳性,因为小的p值表明样本来自两种类型的老鼠(两个独立的分布),这是错误的。
![](https://img.haomeiwen.com/i25231873/e0f9d5511613cca3.png)
通常来讲,假阳性这种情况很少,除非你被p值挟持(p-hacker),95%的情况下样本会重叠,5%情况下不会。但是人类和老鼠的细胞至少有10000个转录基因。如果我们从同一种类型老鼠中取两个样本,并比较了所有10000个基因,我们将会得到5% * 10000=500假阳性值,500个看起来有趣的基因,即使它们不是。500假阳性值是很多的,如何解决这个问题?
![](https://img.haomeiwen.com/i25231873/e8081410948100c5.png)
FDR能控制假阳性的数量,从技术上讲,FDR并不是一种限制假阳性的方法,但这个术语可以与其他方法互换使用。特别地,它被用于“Benjamini-Hochberg方法”。在我们讨论Benjamini-Hochberg方法的细节之前,让我们回顾一下它所基于的概念。
同一分布的p值分布
首先,我们将从同一个分布生成1000个样本,然后计算出1000个p值,
![](https://img.haomeiwen.com/i25231873/80511f0b75884c2b.png)
然后绘制这1000个样本p值的直方图,横轴是p值的大小,纵轴是p值的数量。有510个p值<0.05(5.1%)、5%的p值在0.05到1.0之间。实际上,每个长条包含大约5%的p值(每个箱500个p值)。因为p值是均匀分布的,所以一个test的p值落在任何一个长条里的概率相等。
![](https://img.haomeiwen.com/i25231873/1dacfce4367b4d80.png)
不同分布的p值分布
现在让我们看看p值是如何分布,当它们来自两个不同的分布。
![](https://img.haomeiwen.com/i25231873/d499f544b35249b5.png)
画出1000个p值的统计直方图,大部分p值<0.05,p值> 0.05为样本重叠时的假阴性。您可以通过增加样本量来减少假阴性的数量。
![](https://img.haomeiwen.com/i25231873/99a3017c4cfe2fb4.png)
现在,想象一下我们正在做一个实验,我们在测试神经元细胞中所有的活性基因。一组神经细胞用药物治疗,另一组则不用。这种药物可能会影响1000个基因,这些基因的测量值来自不同的分布,由于样本来自不同的分布,这些p值的直方图是偏向于0的。剩下的9000个活性基因可能不会受到药物的影响,这意味着对大多数基因的测量值将来自相同的分布,这些p值是均匀分布的。
![](https://img.haomeiwen.com/i25231873/5275976117ac827f.png)
我们将两个直方图和2为1,均匀分布的p值来自于不受药物影响的基因:
![](https://img.haomeiwen.com/i25231873/c9c58f2b7a60fd8a.png)
左边的p值是受药物影响的基因和不受药物影响的B基因的混合物。
![](https://img.haomeiwen.com/i25231873/9de23fd693ec011f.png)
通过肉眼,我们可以看到哪里p值是均匀分布的,并确定每个长条中有多少个test,我们把这条红线延长,并将其作为一个阈值来识别“真阳性”,由于我们通常使用0.05的阈值,所以我们将关注蓝色的p值,虚线以上约有450个p值< 0.05,虚线以下约有450个p值< 0.05。
![](https://img.haomeiwen.com/i25231873/5e4e3adafdc7ff04.png)
从假阳性中分离真阳性(受药物影响的基因)的一种方法是只考虑最小的450个p值。这个方法非常好,因为最小这些p值通常是那些收到药物影响的基因。那些不受药物影响的基因p值通常都是均匀分布的,将它们接近的均值(就是前面的红色虚线)平稳地延伸,就可以计算出真阳性。
![](https://img.haomeiwen.com/i25231873/2f1fa636843c7622.png)
如果你能理解这些概念,那么你就比大多数人更了解Benjamini-Hochberg方法。
Benjamini-Hochberg方法
- 是基于我们刚才看到的"肉眼"法
- 我们一会就会讲到它是如何工作的
- BH法校正p值,以限制“显著差异”的假阳性的数量
- 校正p值意味着,使p值变的更大
- 例如,在FDR校正之前,您的p值可能是0.04(显著),经FDR校正后,p值可能为0.06(不再显著)。
- 如果您的显著性阈值是FDR < 0.05,那么少于5%“显著性”结果将是假阳性
下图中,第一个长条中的那些基因的p值<0.05,黑色虚线方框内是经FDR校正后p值<0.05。注意:并不是所有的“真阳性”基因都在盒子里。然而,方框中修改后的p值中只有5%是假阳性。剩下的95%是真阳性。为什么不是所有的真阳性基因都将FDR p值调整为< 0.05?因为并不是所有真正阳性基因都有非常小的p值。左下角是p值小于0.05的真阳性直方图,其中p值不是非常小的基因,经过校正后,p值>0.05。
![](https://img.haomeiwen.com/i25231873/ab25862f08eecc60.png)
令人惊讶的是,Benjamini-Hochberg方法背后的数学原理很简单。让我们一起来看看!
例子,10对样本取自相同的分布(10个不受药物影响的基因),计算出10个p值。
- p值从最小到最大的顺序
- 注意,其中一个p值是假阳性的(也就是说,<0.05)
- 给10 个p值编号
- 最大的p值,经FDR校正后不变
- 在第九个位置放置第二大的p值=0.81* (10/9)=0.90,重复此步骤,计算剩下p值。
-
校正公式
image-20210106215703232.png
-
校正公式
![](https://img.haomeiwen.com/i25231873/73af07b1287fadae.png)
大的例子:蓝色样本来自两个独立分布,计算p值,也就是说,这些p值代表的是受药物影响的基因。红色样本来自同一个分布,计算p值。
![](https://img.haomeiwen.com/i25231873/d6f81e4a4d63ce32.png)
- “肉眼法”建议我们在均匀分布的p值的顶部画一条线,并将其延申从真阳性中区分假阳性
![](https://img.haomeiwen.com/i25231873/820ec6a77b8fc6cc.png)
-
BH法,校正后的p值,我们可以发现,那些假阳性的p值经校正后,它们都大于0.05了。但真阳性的p值还在0.05以下。
image-20210106220717939.png
网友评论