进入正题前先了解几个RNA-seq的相关概念:
effective length,有效长度:在比对基因组末端的一小部分序列会产生比中间序列更少的reads数,而由于转录本存在内含子以及多种剪接方式,因此末端序列会大大增加,这些末端序列会对比对结果带来极大的干扰。因此,有一种常见的校正方式是取每个转录本的缩短一半的长度为有效长度。
normalization,标准化:由于每个样本建库及测序时的数量不一致引起结果偏差,需要标准化,常见的是文库大小标准化。
RPKM
由于每个基因的长度不一致,因此比较基因表达水平时需要考虑转录本的长度。
Nr代表比对到该转录本的reads数,C代表样本总比对到基因组的reads数,L是该转录本长度
公式:rpkm = Nr/C * 1/L * 10^9
10^9:由于前面三个计算出的结果较小,因此乘以10^9使最终结果可以易读
进一步将10^9拆分称10^3 * 10^6再分别计入L和C中,反而增加理解难度
注:本书作者对这个单个表示怀疑,按照单位计算,N和C是整数,L是长度单位,
那么RPKM单位为长度的倒数,没有实际意义。
FPKM
FPKM将RPKM的概念推广到双端测序,若为单端测序fpkm=rpkm
Nf代表比对到该转录本的fragment数,C代表样本总比对到基因组的reads数,L是该转录本长度
公式 fpkm = Nf/C *1/L * 10^9
注意:
1.在双端测序中,尽量使用fpkm
2.双端测序序列一对匹配上,则作为一个fragment;如果只有一个reads比对上,也记作一个fragment。
3.若所有双端匹配都成对匹配,那么rpkm = 2 fpkm
TPM
TPM假定不同样本转录本总分子量相同,进行比较,所有基因的TPM值总和为10^6。
T = sum Ni/Li
公式 TPM = N/L * 1/T * 10^6
由于分子分母单位相同,TPM是一个无单位的数值
注意
R/FPKM的计算方式看似合理,但。C/N表示该转录本的reads数目占总体reads数目的比值,其中而对于特定基因而言,L值固定,因此,R/FPKM值必然降低。但是由于大多数情况下,一个基因改变对其他基因的影响被上万个基因均分,因而数值影响不大,所以得出了看似合理的结果。
TMM
TMM是通过去除部分表达过高或者过低的基因,通过归一化测序深度
CPM
CPM是未进行长度标准化的单位
公式为 C/N *10^6
网友评论