数据挖掘中的LogFC,p值和FDR值是什么？

作者: Seurat_Satija | 来源:发表于2021-01-19 00:51 被阅读0次

数据挖掘中的LogFC,p值和FDR值是什么？
整合多个数据集的差异基因
#多个数据集差异基因整合#
FDR-P值是什么东西！
FDR(False Discovery Rate) 相关 202
q值（FDR）的理解和计算，并用R实现
差异分析之后呢
R语言-FDR校正的原理
使用火山图呈现GSEA分析的结果
Seurat中FindMarker寻找两个cell type差异

GEO数据挖掘或转录组分析差异表达基因时，结果中会出现Log2FC，p值和FDR值，这三个值是生信技能树生信爆款入门课程geo数据挖掘差异基因筛选提到的重点。这些个值是什么意思呢？为拓展课堂所学知识，现在对他们做下总结。

1logFC

1.1 logFC是什么

差异倍数(fold change)，fold change翻译过来就是倍数变化。limma接受的输入参数就是一个表达矩阵，而且是log后的表达矩阵（以2为底）。

1.2logFC计算举例

logFC这一列的值，其实就是输入的表达矩阵中case一组的平均表达量减去control一组的平均表达量的值，那么就会有正负之分，代表了case相当于control组来说，该基因是上调还是下调。
假设A基因表达值为1，B表达值为3，那么B的表达就是A的3倍。一般我们都用count、TPM或FPKM来衡量基因表达水平，所以基因表达值肯定是非负数，那么fold change的取值就是(0, +∞)。
为什么我们经常看到差异基因里负数代表下调、正数代表上调？因为我们用了log2 fold change。
当expr(A) < expr(B)时，B对A的fold change就大于1，log2 fold change就大于0（见下图），B相对A就是上调；
当expr(A) > expr(B)时，B对A的fold change就小于1，log2 fold change就小于0。通常为了防止取log2时产生NA，我们会给表达值加1（或者一个极小的数），也就是log2(B+1) - log2(A+1)。

image.png

1.3为什么不直接用表达之差，差直接有正负啊？

假设A表达为1，B表达为8，C表达为64；直接用差B相对A就上调了7，C就相对B上调了56；用log2 fold change，B相对A就上调了3，C相对B也只上调了3. 通过测序观察我们发现，不同基因在细胞里的表达差异非常巨大，所以直接用差显然不合适，用log2 fold change更能表示相对的变化趋势。

1.4logFC取值多少合适呢

log2FC中的FC即 fold change，表示两样品（组）间表达量的比值，对其取以2为底的对数之后即为log2FC。一般默认取log2FC绝对值大于1为差异基因的筛选标准；
据多数文献报道有取1得， 1/2/1.5 也都有。这个没有规定，你想多少都可以，也要结合自己的数据，如果取1.5你找不到差异基因就不找了把数据扔了吗。
可以，这个标准由自己定，在神经系统方面，微小的变化都会产生效应。另外自己注意看看芯片数据是不是有批次效应，如果不去除批次效应，计算差异gene可能存在问题。另外，甲基化信号值的差异分析也许不应该是看logFC,也要注意哦。

2.P值

值是在统计学的范畴假设检验首先必须要有假设，我们假设A和B的表达没有差异（H0，零假设），然后基于此假设，通过t test（以RT-PCR为例）算出我们观测到的A和B出现的概率，就得到了P-value，如果P-value<0.05，那么说明小概率事件出现了，我们应该拒绝零假设，即A和B的表达不一样，即有显著差异。
logFC 就是倍数变化取对数（也有说不是对数就是倍数的，但大多数人都按对数来的），-logP.val 就是 p 值取对数然后加负号。因为 p 值一般都很小，所以一般取对数做图。然后又因为一般 p < 1 所以取对数都是负值，我们为了作图方便所以加个负号。举例，p = 0.01 取 -logP 之后变成 2 、p = 0.001 变成 3。你看这就很好做图啊。

image.png

显著性只能说明我们的数据之间具有统计学上的显著性，要看上调下调必须回去看差异倍数。

3.FDR

即False Discovery Rate错误发现率，是通过对差异显著性p值（p-value）进行校正得到的。由于转录组测序的差异表达分析是对大量的基因表达值进行独立的统计假设检验，会存在假阳性问题，因此在进行差异表达分析过程中，采用了公认的Benjamini-Hochberg校正方法对原有假设检验得到的显著性p值（p-value）进行校正，并最终采用FDR作为差异表达基因筛选的关键指标。一般取FDR<0.01或者0.05作为默认标准。

这两个指标的选取一般是按照经验值去筛选的，并非完全不可以调整。在实验差异基因数目过低或者过高，可以对指标进行微调。

实际上经常看到的差异表达火山图（如下图）里的几条虚线就是这两个指标的体现。

image.png
参考文献
2019-12-05（关于logfc和p值）
差异表达基因时的Log2FC和FDR值的含义？
关于limma包差异分析结果的logFC解释
差异表达基因分析：差异倍数( fold change),差异的显著性(P- value)|火山图