基因表达量 FPKM 和 TPM 的区别，换个角度看看~

作者: 生信石头 | 来源:发表于2021-08-31 21:27 被阅读0次

基因表达量 FPKM 和 TPM 的区别，换个角度看看~
RPKM、FPKM、TPM计算公式
转录组分析5——差异表达分析
R-获取基因长度
计算基因表达量fpkm和tpm
RPKM,FPKM,RPM,TPM的区别
基因表达值定量方法RPKM、FPKM和TPM标准化的概念和比较
FPKM，RPKM，TPM区分--2020-04-20
RPKM/FPKM/TPM/CPM说明
reads counts转化为fpkm和tpm值

一直以来，我们都会使用 FPKM 来表示基因的表达量。其公式如下

其中：

X 为样本中当前基因被测到的片段数目
l 为当前基因的长度（事实上，最好是有效长度）
N 为样本测序到的总片段数

这里我们抹去 1kb 和 10^6 这两个专门引进的因子，因为这是可以随便调整的。那么，可以看到（X/N）本身就是一个比值，单位消除。剩下的量纲是啥？
（1/l）即 1/bp。其对应的事实上是基因有效长度的倒数。从某个角度来说，假设我们给定了一个基因结构注释信息文件 GFF3，直接使用其中转录本长度/基因长度，那么完全可以理解，假定所有基因的表达量相同，那么所有 FPKM 加和，那么就是基因有效长度的倒数的加和。于是，对于每个物种，或者每个样品，我们可以分别加所有FPKM值，得到的是几乎不可能是相同值，这决定于基因有效长度的倒数的加和。
事实上，尽管不少人已经默认了使用TPM来做转录组表达量估量。但这本身不太合理，毕竟我们不能强行要求每个细胞拥有相同数量的mRNA。
当然这是题外话。人嘛，当我们没有更好的选择是，就选择目前最好的一个。于是 TPM 这个选项是没啥问题的。

当然，我们可以发现，其实 TPM 就是 FRKM 的比值... 它本身成为细胞中某个转录本相比于细胞中转录本总数的比值。既然是绝对的比值，那么加和，一定是 1。由于增加了10^6，所以 TPM 的加和一定是这个数目。
这里提一个情况，我们都很清楚，每个细胞中转录本数目是不同的。样本A中，目的基因转录本数目1000，细胞内转录本数目2000；样本B中，目的基因转录本数目也是1000，细胞内转录本数目5000。问题来了，两个 1000 表示没有啥生物学差异的可能性更高？1000/2000=0.5，和1000/5000=0.2，表示存在生物学差异的可能性更高？
于是，我们又开始看另外的东西 rlog，vst，TMM，标准化做差异表达分析。事实上，或许当我们并不想扩展到太多实验，只关注当前实验，不存在什么批次效应的情况下，或许 TMM 标准化出来的数值，挺适合来分析基因表达趋势，相比于 FPKM 和 TPM。