这篇文章讲的好:https://www.omicshare.com/forum/thread-762-1-1.html
https://www.jianshu.com/p/fca6e88a5196
标准化方法 | 描述 | 考虑的因素 | 方法使用的适用范围 |
---|---|---|---|
CPM(counts per million) | 用总的reads数量来衡量计数 | 测序深度 | 同一样本组重复之间的基因计数比较,不用于样本之间的比较或DE分析 |
TPM(transcripts per kilobase million) | 每百万mapped上的reads每个长度的转录本计数 | 测序深度和基因长度 | 一个样本内或同一样本组的样本之间的基因计数比较;不适用于DE分析 |
RPKM/FPKM(reads/fragments per kilobase of exon per million reads/fragments mapped) | 与TPM类似 | 测序深度和基因长度 | 一个样本内或同一样本组的样本之间的基因计数比较;不适用于DE分析 |
DEseq2’s median of ratios | 计数除以样本特定大小因子,由基因计数相对于每个基因几何平均值的中位数比率决定 | 测序深度和RNA组成 | 在样本间基因计数比较及DE分析;不适用于样本内比较 |
EdgeR's trimmed mean of M values(TMM) | 使用样本间对数表达式比率的加权修剪平均值 | 测序深度,RNA组成,基因长度 | 样本间和样本内的基因计数比较以及DE分析 |
去除基因长度影响:因为测序深度越深,每个基因得到的能比对mappping上的reads就越多。
去除:因为越长的基因有越多reads能mapping上。
read count:比对到gene A的reads数量,作为基因差异表达分析的输入数值。
RPKM = (1000000C)/ (NL/1000)
- C:某个样本mapping到某个特定基因的外显子上的所有的reads;
- N:某个样本的所有reads总和;
- L:某个特定基因的长度。
CPM= C/N*1000000
- C :为比对到某基因的reads数。
- N :为比对到所有基因的总reads 数。
可以看到CPM与RPKM相比,关键是少了L这个参数。要进行基因间比较需要考虑基因长度时,CPM这个指标不适用。
网友评论