主要产生的图表:
MA plot:基因丰度和表达变化之间的关系
Volcano plot:展示基因的差异表达
Heatmap:展示样品之间趋同性与差异性
Cluster plots:将表达模式相近的基因被聚为一类
1.MA plot:
首先理解一下几个概念:
logFC和logcounts
FC(fold change):(差异倍数)是指两个样本之间表达量的倍数
详细解释移步此处:fold change
counts:是比对到每个基因的reads的条数
MA plot横轴是代表表达量的高低,纵轴是代表差异表达的倍数,每个点是代表转录本。黑色的点代表其差异表达倍数较小,
三维的
Volcano plotFDR:false discovery rate
横坐标为fold change是绝对值越大,差异表达越明显。纵坐标值越高,代表转录本质量越好。所以红色的点代表的是要取的比较好的值。黑色的点则是要去掉的值。
Heatmap横坐标为样本名称,纵坐标为转录本的isoform。颜色代表每个基因/转录本在不同样品中的表达情况。(如上图,黄绿色越深表达量越高,紫色越深表达量越低)这样就可以看到不同样品/分组之间表达谱的差异。
优化数值:当然,为了图片好看,通常会对表达量取对数(由于部分基因Count等于0,所以取对数前可以给所有基因的表达量加1,或加一个比较小的数值,如0.001),并使用每个基因在所有样品中表达量的均值对基因表达量进行均一化。
另外,Heatmap的上方和左侧进化树一样的结构,是聚类(Clustering)的结果,表达趋势越接近的两个基因/样品,在聚类结果中也更为接近。通常认为能聚到一起的基因簇/样品簇有着更为接近的生物学特征。
Heatmap此图也是热图,它表示各个样本之间的相关度,两个相同的样本相关度最高为黄色。
表示具有相似模式的表达基因,可能具有相近的生物学功能。通过聚类分析从而识别基因功能。
这个图横坐标表示样本ID。纵坐标表示相似基因的表达量。不同的颜色表示不同的表达模式,黑色线为该聚类下基因表达的趋势线。
本文有部分缺陷的地方,希望大家指正,谢谢
网友评论