一直以来,我们都会使用 FPKM
来表示基因的表达量。其公式如下
其中:
- X 为样本中当前基因被测到的片段数目
- l 为当前基因的长度(事实上,最好是有效长度)
- N 为样本测序到的总片段数
这里我们抹去 1kb 和 10^6 这两个专门引进的因子,因为这是可以随便调整的。那么,可以看到(X/N)本身就是一个比值,单位消除。剩下的量纲是啥?
(1/l)即 1/bp。其对应的事实上是基因有效长度的倒数。从某个角度来说,假设我们给定了一个基因结构注释信息文件 GFF3,直接使用其中转录本长度/基因长度,那么完全可以理解,假定所有基因的表达量相同,那么所有 FPKM 加和,那么就是基因有效长度的倒数的加和。于是,对于每个物种,或者每个样品,我们可以分别加所有FPKM值,得到的是几乎不可能是相同值,这决定于基因有效长度的倒数的加和。
事实上,尽管不少人已经默认了使用TPM
来做转录组表达量估量。但这本身不太合理,毕竟我们不能强行要求每个细胞拥有相同数量的mRNA。
当然这是题外话。人嘛,当我们没有更好的选择是,就选择目前最好的一个。于是 TPM 这个选项是没啥问题的。
当然,我们可以发现,其实 TPM 就是 FRKM 的比值... 它本身成为细胞中某个转录本相比于细胞中转录本总数的比值。既然是绝对的比值,那么加和,一定是 1。由于增加了10^6,所以 TPM 的加和一定是这个数目。
这里提一个情况,我们都很清楚,每个细胞中转录本数目是不同的。样本A中,目的基因转录本数目1000,细胞内转录本数目2000;样本B中,目的基因转录本数目也是1000,细胞内转录本数目5000。问题来了,两个 1000 表示没有啥生物学差异的可能性更高?1000/2000=0.5,和1000/5000=0.2,表示存在生物学差异的可能性更高?
于是,我们又开始看另外的东西 rlog,vst,TMM,标准化做差异表达分析。事实上,或许当我们并不想扩展到太多实验,只关注当前实验,不存在什么批次效应的情况下,或许 TMM 标准化出来的数值,挺适合来分析基因表达趋势,相比于 FPKM 和 TPM。
网友评论