转录组表达定量- Read count?CPM? RPKM? FPKM?
1.Read count
数值概念:比对到某基因的reads数。
用途:用于换算CPM、RPKM、FPRM等后续其他指标;同时作为基因异分析软件(如DESeq和edgeR)的输入值,也就是说差异分析的结果来自于 read count的计算,而非CPM、RPKM、 FPKM,表达定量的结果主要用于主成分分析、层次聚类分析。
2.CPM:Counts per million
数值概念:计算公式:CPM= A/mapped reads*1000000 A为比对到某基因的reads数(read count)。
用途:在某些情况下,只想了解每个基因被覆盖到的相对reads数,而不希望对其做长度校正,就会使用这个指标。
CPM只对read count相对总reads数做了数量的均一化。当如果想进行表达量的基因间比较,则不得不考虑基因长度的不同。如果进一步做长度的均一化,就得到了下面的RPKM、FPKM。
3.RPKM:Reads Per Kilobaseof exon model per Million mapped reads (每千个碱基的转录每百万映射读取的reads)
数值概念:计算公式:RPKM=(1000000*A)/( mapped reads *gene length/1000)
设A 为比对到某基因的 reads数(read count)。
RPKM法能消除基因长度和测序量差异对计算基因表达的影响,计算得到的基因表达量可直接用于比较不同样品间的基因表达差异和不同基因间表达高低的比较。
用途:用于与基因表达量相关的后期分析。基因表达趋势分析、WGCNA共表达网络构建,热图绘制等都使用。
4.FPKM: Fragments Per Kilobase of exon model per Million mapped fragments(每千个碱基的转录每百万映射读取的fragments)
FPKM意义与RPKM极为相近。二者区别仅在于,Fragment与Read。RPKM的诞生是针对早期的SE测序,FPKM则是在PE测序上对RPKM的校正。只要明确Reads和Fragments的区别,RPKM和FPKM的概念便易于区分。Reads即是指下机后fastq数据中的每一条Reads,Fragments则是指每一段用于测序的核酸片段【双端序列即使丢弃1端reads,让按照1个Fragments计算】。
网友评论