在高通量测序当中,很重要的一块就是检测基因的表达量,它是差异分析和转录组数据分析的基础。与q-PCR相似,基因表达量的衡量也是采取相对定量的方法。
落在一个基因区域内的read counts数目取决于基因长度和测序深度。
1.基因长度的影响
在同一个样本中,基因越长,随机打断得到的片段就越多,该基因被测到的概率就越大,比对到该基因的reads就越多。
2.测序深度的影响
不同样本里,样本的测序深度越高,同一基因被测到的次数越多,比对到该基因的reads数就越多。
由1和2可知一个基因越长,测序深度越高,落在其内部的read counts数目就会相对越多。因此我们想比较不同基因的表达量,就要进行数据标准化。
理解基因长度和测序深度
看上图,rep3和rep相比,无论哪一个基因,rep3的计数都高于rep1,说明rep3的测序深度高于rep1;而基因B与基因A相比,无论在哪一个rep里,基因B的计数都高于基因A,说明基因B的长度大于基因A。
RPKM
RPKM:Reads Per Kilobase Million
先将测序深度标准化,然后将基因长度标准化。
计算公式:RPKM= total exon reads/(mapped reads(millions) x exon length(KB))
total exon reads:某个样本mapping到特定基因外显子上所有的reads.
mapped reads(millions):某个样本所有的reads总和.
exon length(KB):某个基因的长度(外显子长度总和,以KB为单位).
RPKM标准化前vs标准化后
如上图所示,Rep1 RPKM=10/(35x2)=1.43
FPKM
FPKM:Fragments Per Kilobase Million
RPKM is for single end RNA-seq.
FPKM is very similar to RPKM, but for paired end RNA-seq.
看下图理解reads和fragment的区别,以及为何RPKM for SE and FPKM for PE.
RPKM VS FPKM
RPKM vs FPKM
对于PE,如果一对paired-read都比对上了,那么这一对pair-read称为一个fragment;如果一个比对上了,另一个没比对上,那么这个比对上的read就称为一个fragment。
TPM
TPM: Transcripts Per Kilobase of exon model per Million mapped reads (每千个碱基的转录每百万映射读取的Transcripts)
TPM和RPKM以及FPKM最主要的区别:different order.
TPM先将基因长度标准化,然后将测序深度标准化
TPM顺序:
step1step2
可以看出TPM是先对基因长度标准化,再对测序深度标准化,这与FPKM正好相反。
TPM vs RPKM TPM vs RPKM
TPM vs RPKM
TPM vs RPKM
个人理解:由于标准化顺序的不同,导致TPM的pie是一样的,而RPKM的pie是不一样的。
statquest:with TPM, everyone gets the same sized pie. since RNA-seq is all about comparing relative proportions of reads, this metric seems more appropriate.
网友评论