FDR

如果您曾经见过或做过任何与高通量测序有关的事情，那么您可能在之前就听说过错误发现率(false discovery rates)(FDR),你可能已经使用过FDR，它是如何来的，它是如何计算的。错误发现率是一种清除看起来不错的坏数据的工具。

例子：RNA-Seq测量基因表达，在这个例子中，想象我们看到的是一种正常的“野生型”老鼠。稍后，我们会将它们与接受药物治疗的老鼠进行比较。“正常”的老鼠被称为“野生型”，这不是很有趣吗?如果有人说我是“野生型”，我想他们也不会认为我是“正常”的。x轴是样本分组，y轴是gene X的reads，RNA-seq并不是完美的，不同的样本，总是有一点不同，所以每次我们测量表达时，我们会得到稍微不同的值。大部分的值与均值很接近，很少情况下，我们会得到一个比平均值大的多的值和一个比平均值小的多的值。

image-20210106193300472.png

我们可以把这些值放到正态分布曲线中去，其中大多数都位于中间区域，数据较大的值可能位于曲线的右侧，较小的位于左侧。

image-20210106193653321.png

想象我们我们对三只小鼠做了RNA-Seq,为样本1，因为这些测量值接近均值，所以它们来自分布的中间。我们又测了三个样本，为样本2(样本1和样本2都来自野生型样本)，它们来自分布的中间。如果我们对样本1和样本2进行统计检验，p值将会很大(> 0.05)，因为两个样本重叠。

image-20210106204805181.png

很少情况下，我们会得到两个样本不重叠。当这种情况发生时，p值< 0.05，这叫做假阳性，因为小的p值表明样本来自两种类型的老鼠(两个独立的分布)，这是错误的。

image-20210106204805181.png

通常来讲，假阳性这种情况很少，除非你被p值挟持(p-hacker),95%的情况下样本会重叠,5%情况下不会。但是人类和老鼠的细胞至少有10000个转录基因。如果我们从同一种类型老鼠中取两个样本，并比较了所有10000个基因，我们将会得到5% * 10000=500假阳性值，500个看起来有趣的基因，即使它们不是。500假阳性值是很多的，如何解决这个问题？

image-20210106205342859.png

FDR能控制假阳性的数量，从技术上讲，FDR并不是一种限制假阳性的方法，但这个术语可以与其他方法互换使用。特别地，它被用于“Benjamini-Hochberg方法”。在我们讨论Benjamini-Hochberg方法的细节之前，让我们回顾一下它所基于的概念。

同一分布的p值分布

首先，我们将从同一个分布生成1000个样本，然后计算出1000个p值，

image-20210106205927795.png

然后绘制这1000个样本p值的直方图，横轴是p值的大小，纵轴是p值的数量。有510个p值<0.05(5.1%)、5%的p值在0.05到1.0之间。实际上，每个长条包含大约5%的p值(每个箱500个p值)。因为p值是均匀分布的，所以一个test的p值落在任何一个长条里的概率相等。

image-20210106210321513.png

不同分布的p值分布

现在让我们看看p值是如何分布，当它们来自两个不同的分布。

image-20210106210628495.png

画出1000个p值的统计直方图，大部分p值<0.05,p值> 0.05为样本重叠时的假阴性。您可以通过增加样本量来减少假阴性的数量。

image-20210106210801512.png

现在，想象一下我们正在做一个实验，我们在测试神经元细胞中所有的活性基因。一组神经细胞用药物治疗，另一组则不用。这种药物可能会影响1000个基因，这些基因的测量值来自不同的分布，由于样本来自不同的分布，这些p值的直方图是偏向于0的。剩下的9000个活性基因可能不会受到药物的影响，这意味着对大多数基因的测量值将来自相同的分布，这些p值是均匀分布的。

image-20210106211254647.png

我们将两个直方图和2为1，均匀分布的p值来自于不受药物影响的基因:

image-20210106211555377.png

左边的p值是受药物影响的基因和不受药物影响的B基因的混合物。

image-20210106211635360.png

通过肉眼，我们可以看到哪里p值是均匀分布的，并确定每个长条中有多少个test，我们把这条红线延长，并将其作为一个阈值来识别“真阳性”，由于我们通常使用0.05的阈值，所以我们将关注蓝色的p值，虚线以上约有450个p值< 0.05，虚线以下约有450个p值< 0.05。

image-20210106212253984.png

从假阳性中分离真阳性(受药物影响的基因)的一种方法是只考虑最小的450个p值。这个方法非常好，因为最小这些p值通常是那些收到药物影响的基因。那些不受药物影响的基因p值通常都是均匀分布的，将它们接近的均值（就是前面的红色虚线）平稳地延伸，就可以计算出真阳性。

image-20210106212607882.png

如果你能理解这些概念，那么你就比大多数人更了解Benjamini-Hochberg方法。

Benjamini-Hochberg方法

是基于我们刚才看到的"肉眼"法
- 我们一会就会讲到它是如何工作的
BH法校正p值，以限制“显著差异”的假阳性的数量
- 校正p值意味着，使p值变的更大
- 例如，在FDR校正之前，您的p值可能是0.04(显著)，经FDR校正后，p值可能为0.06(不再显著)。
如果您的显著性阈值是FDR < 0.05，那么少于5%“显著性”结果将是假阳性

下图中，第一个长条中的那些基因的p值<0.05,黑色虚线方框内是经FDR校正后p值<0.05。注意：并不是所有的“真阳性”基因都在盒子里。然而，方框中修改后的p值中只有5%是假阳性。剩下的95%是真阳性。为什么不是所有的真阳性基因都将FDR p值调整为< 0.05?因为并不是所有真正阳性基因都有非常小的p值。左下角是p值小于0.05的真阳性直方图，其中p值不是非常小的基因，经过校正后，p值>0.05。