RNA-Seq分析|RPKM, FPKM, TPM, 计算对比

作者: cHarden13 | 来源:发表于2020-02-17 17:02 被阅读0次

RPKM,FPKM,RPM,TPM的区别
06高通量测序-RPKM,FPKM,and TPM
RNA-Seq数据标准化方法
Counts FPKM RPKM TPM CPM 的转化
RNA_Seq分析中的标准化（reads_count,FPKM,
RNA-Seq分析|RPKM, FPKM, TPM, 计算对比
RNA-seq的counts值，RPM, RPKM, FPKM,
【生信技能树】2020-01-02作业
RPKM，FPKM和TPM明确解释| RNA-Seq博客
使用DEseq2计算FPKM后计算TPM

在高通量测序当中，很重要的一块就是检测基因的表达量，它是差异分析和转录组数据分析的基础。与q-PCR相似，基因表达量的衡量也是采取相对定量的方法。
落在一个基因区域内的read counts数目取决于基因长度和测序深度。

1.基因长度的影响

在同一个样本中，基因越长，随机打断得到的片段就越多，该基因被测到的概率就越大，比对到该基因的reads就越多。

2.测序深度的影响

不同样本里，样本的测序深度越高，同一基因被测到的次数越多，比对到该基因的reads数就越多。
由1和2可知一个基因越长，测序深度越高，落在其内部的read counts数目就会相对越多。因此我们想比较不同基因的表达量，就要进行数据标准化。

理解基因长度和测序深度

看上图，rep3和rep相比，无论哪一个基因，rep3的计数都高于rep1，说明rep3的测序深度高于rep1；而基因B与基因A相比，无论在哪一个rep里，基因B的计数都高于基因A，说明基因B的长度大于基因A。

RPKM

RPKM：Reads Per Kilobase Million
先将测序深度标准化，然后将基因长度标准化。
计算公式：RPKM= total exon reads/(mapped reads(millions) x exon length(KB))
total exon reads:某个样本mapping到特定基因外显子上所有的reads.
mapped reads(millions):某个样本所有的reads总和.
exon length(KB):某个基因的长度（外显子长度总和，以KB为单位）.

RPKM标准化前vs标准化后

如上图所示，Rep1 RPKM=10/(35x2)=1.43

FPKM

FPKM：Fragments Per Kilobase Million
RPKM is for single end RNA-seq.
FPKM is very similar to RPKM, but for paired end RNA-seq.
看下图理解reads和fragment的区别，以及为何RPKM for SE and FPKM for PE.

RPKM VS FPKM

RPKM vs FPKM

对于PE，如果一对paired-read都比对上了，那么这一对pair-read称为一个fragment；如果一个比对上了，另一个没比对上，那么这个比对上的read就称为一个fragment。

TPM

TPM: Transcripts Per Kilobase of exon model per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts)
TPM和RPKM以及FPKM最主要的区别：different order.
TPM先将基因长度标准化，然后将测序深度标准化

TPM顺序：

step1

step2

可以看出TPM是先对基因长度标准化，再对测序深度标准化，这与FPKM正好相反。

TPM vs RPKM

个人理解：由于标准化顺序的不同，导致TPM的pie是一样的，而RPKM的pie是不一样的。
statquest：with TPM, everyone gets the same sized pie. since RNA-seq is all about comparing relative proportions of reads, this metric seems more appropriate.

参考：https://www.jianshu.com/p/879db8f94a34