美文网首页
17高通量测序-FDR

17高通量测序-FDR

作者: 不到7不改名 | 来源:发表于2021-01-19 10:19 被阅读0次

FDR

​ 如果您曾经见过或做过任何与高通量测序有关的事情,那么您可能在之前就听说过错误发现率(false discovery rates)(FDR),你可能已经使用过FDR,它是如何来的,它是如何计算的。错误发现率是一种清除看起来不错的坏数据的工具。

例子:RNA-Seq测量基因表达,在这个例子中,想象我们看到的是一种正常的“野生型”老鼠。稍后,我们会将它们与接受药物治疗的老鼠进行比较。“正常”的老鼠被称为“野生型”,这不是很有趣吗?如果有人说我是“野生型”,我想他们也不会认为我是“正常”的。x轴是样本分组,y轴是gene X的reads,RNA-seq并不是完美的,不同的样本,总是有一点不同,所以每次我们测量表达时,我们会得到稍微不同的值。大部分的值与均值很接近,很少情况下,我们会得到一个比平均值大的多的值和一个比平均值小的多的值。

image-20210106193300472.png

我们可以把这些值放到正态分布曲线中去,其中大多数都位于中间区域,数据较大的值可能位于曲线的右侧,较小的位于左侧。

image-20210106193653321.png

想象我们我们对三只小鼠做了RNA-Seq,为样本1,因为这些测量值接近均值,所以它们来自分布的中间。我们又测了三个样本,为样本2(样本1和样本2都来自野生型样本),它们来自分布的中间。如果我们对样本1和样本2进行统计检验,p值将会很大(> 0.05),因为两个样本重叠。

image-20210106204805181.png

很少情况下,我们会得到两个样本不重叠。当这种情况发生时,p值< 0.05,这叫做假阳性,因为小的p值表明样本来自两种类型的老鼠(两个独立的分布),这是错误的。

image-20210106204805181.png

通常来讲,假阳性这种情况很少,除非你被p值挟持(p-hacker),95%的情况下样本会重叠,5%情况下不会。但是人类和老鼠的细胞至少有10000个转录基因。如果我们从同一种类型老鼠中取两个样本,并比较了所有10000个基因,我们将会得到5% * 10000=500假阳性值,500个看起来有趣的基因,即使它们不是。500假阳性值是很多的,如何解决这个问题?

image-20210106205342859.png

​ FDR能控制假阳性的数量,从技术上讲,FDR并不是一种限制假阳性的方法,但这个术语可以与其他方法互换使用。特别地,它被用于“Benjamini-Hochberg方法”。在我们讨论Benjamini-Hochberg方法的细节之前,让我们回顾一下它所基于的概念。

同一分布的p值分布

​ 首先,我们将从同一个分布生成1000个样本,然后计算出1000个p值,

image-20210106205927795.png

​ 然后绘制这1000个样本p值的直方图,横轴是p值的大小,纵轴是p值的数量。有510个p值<0.05(5.1%)、5%的p值在0.05到1.0之间。实际上,每个长条包含大约5%的p值(每个箱500个p值)。因为p值是均匀分布的,所以一个test的p值落在任何一个长条里的概率相等。

image-20210106210321513.png

不同分布的p值分布

​ 现在让我们看看p值是如何分布,当它们来自两个不同的分布。


image-20210106210628495.png

画出1000个p值的统计直方图,大部分p值<0.05,p值> 0.05为样本重叠时的假阴性。您可以通过增加样本量来减少假阴性的数量。


image-20210106210801512.png

​ 现在,想象一下我们正在做一个实验,我们在测试神经元细胞中所有的活性基因。一组神经细胞用药物治疗,另一组则不用。这种药物可能会影响1000个基因,这些基因的测量值来自不同的分布,由于样本来自不同的分布,这些p值的直方图是偏向于0的。剩下的9000个活性基因可能不会受到药物的影响,这意味着对大多数基因的测量值将来自相同的分布,这些p值是均匀分布的。

image-20210106211254647.png

我们将两个直方图和2为1,均匀分布的p值来自于不受药物影响的基因:

image-20210106211555377.png

左边的p值是受药物影响的基因和不受药物影响的B基因的混合物。

image-20210106211635360.png

通过肉眼,我们可以看到哪里p值是均匀分布的,并确定每个长条中有多少个test,我们把这条红线延长,并将其作为一个阈值来识别“真阳性”,由于我们通常使用0.05的阈值,所以我们将关注蓝色的p值,虚线以上约有450个p值< 0.05,虚线以下约有450个p值< 0.05。


image-20210106212253984.png

从假阳性中分离真阳性(受药物影响的基因)的一种方法是只考虑最小的450个p值。这个方法非常好,因为最小这些p值通常是那些收到药物影响的基因。那些不受药物影响的基因p值通常都是均匀分布的,将它们接近的均值(就是前面的红色虚线)平稳地延伸,就可以计算出真阳性。

image-20210106212607882.png

如果你能理解这些概念,那么你就比大多数人更了解Benjamini-Hochberg方法。

Benjamini-Hochberg方法

  • 是基于我们刚才看到的"肉眼"法
    • 我们一会就会讲到它是如何工作的
  • BH法校正p值,以限制“显著差异”的假阳性的数量
    • 校正p值意味着,使p值变的更大
    • 例如,在FDR校正之前,您的p值可能是0.04(显著),经FDR校正后,p值可能为0.06(不再显著)。
  • 如果您的显著性阈值是FDR < 0.05,那么少于5%“显著性”结果将是假阳性

下图中,第一个长条中的那些基因的p值<0.05,黑色虚线方框内是经FDR校正后p值<0.05。注意:并不是所有的“真阳性”基因都在盒子里。然而,方框中修改后的p值中只有5%是假阳性。剩下的95%是真阳性。为什么不是所有的真阳性基因都将FDR p值调整为< 0.05?因为并不是所有真正阳性基因都有非常小的p值。左下角是p值小于0.05的真阳性直方图,其中p值不是非常小的基因,经过校正后,p值>0.05。

image-20210106214822696.png

令人惊讶的是,Benjamini-Hochberg方法背后的数学原理很简单。让我们一起来看看!

例子,10对样本取自相同的分布(10个不受药物影响的基因),计算出10个p值。

  1. p值从最小到最大的顺序
    • 注意,其中一个p值是假阳性的(也就是说,<0.05)
  2. 给10 个p值编号
  3. 最大的p值,经FDR校正后不变
  4. 在第九个位置放置第二大的p值=0.81* (10/9)=0.90,重复此步骤,计算剩下p值。
    • 校正公式 image-20210106215703232.png
image-20210106215910263.png

大的例子:蓝色样本来自两个独立分布,计算p值,也就是说,这些p值代表的是受药物影响的基因。红色样本来自同一个分布,计算p值。

image-20210106220022969.png
  • “肉眼法”建议我们在均匀分布的p值的顶部画一条线,并将其延申从真阳性中区分假阳性
image-20210106220504667.png
  • BH法,校正后的p值,我们可以发现,那些假阳性的p值经校正后,它们都大于0.05了。但真阳性的p值还在0.05以下。


    image-20210106220717939.png

相关文章

网友评论

      本文标题:17高通量测序-FDR

      本文链接:https://www.haomeiwen.com/subject/bzduaktx.html