前段时间,我们对显著差异转录本Pathway富集进行了解读,。今天,我们再来看看GO分析,以及相关图表的意义。
GO分析网站:http://pantherdb.org/,以及g:Profiler:https://biit.cs.ut.ee/gprofiler
预备知识1:转录本是什么?
转录组测序的研究对象是特定细胞在某一功能状态下所能转录出来的所有RNA的总和。转录组de novo测序是指在不需要物种基因组序列信息的情况下,用新一代高通量测序技术对某一物种特定组织或器官在某一状态下的转录本进行测序、组装得到转录本序列信息。基于组装出来的转录本,可进行差异GO分析。
预备知识2:基因表达与显著差异
在之前的《显著差异转录本Pathway富集》一文中,我们已经对显著差异基因做了简单介绍,提到了fold change和probability两个进行筛选差异基因的阀值。其中,probability是一个统计系数,而fold change(表达差异倍数)是怎么得来的呢?
要了解表达差异,首先要对基因的表达有一个初步的认识。在RNA-seq分析中,我们可以通过定位到基因区域的测序序列(reads)的数目来估计基因的表达水平。Reads数目除了与基因的真实表达水平成正比外,还与基因的长度和测序深度成正相关。为了使不同基因、不同实验间的基因表达水平具有可比性,我们使用FPKM(expected number of fragments per kilobase of tran sequence per millions base pairs sequenced,每百万测序碱基中每千个转录子测序碱基中所包含的测序片断数)对基因表达量进行标准化。根据FPKM值,我们才能对基因的表达进行定量化,从而根据不同样品或样品组的同一个基因的FPKM值求得差异倍数fold change并筛选出显著差异。
get了以上要点
我们来看看GO分析到底是怎么回事
GO分析概述
GO(gene ontology)是基因本体联合会(Gene Onotology Consortium)所建立的数据库,旨在建立一个适用于各种物种的、对基因和蛋白质功能进行限定和描述的、并能随着研究不断深入而更新的语言词汇标准。GO是多种生物本体语言中的一种,提供了三层结构的系统定义方式,用于描述基因产物的功能。在转录组项目中,GO功能分析一方面给出差异表达转录本的GO功能分类注释;另一方面给出差异表达转录本的GO功能显著性富集分析。
GO分析结果详解
下面,我们来了解一下GO分析中的结果图表。
1
GO功能分类注释图
根据差异转录本注释到GO数据库的信息,可以绘制GO功能分类注释图,如图1左侧纵轴是GO功能的具体名称,右侧纵轴为功能的分类名称,横轴为释到对应GO功能的DEGs(差异转录本)数量。
图1. A-VS-B差异表达基因的GO分类图
2
转录本差异的GO显著富集表
与KEGG的显著富集相同,GO的显著富集也是从差异转录本中筛选的。首先,我们将差异表达转录本向GO数据库(http://www.geneontology.org/)的各term映射,并计算每个term的转录本数,从而得到具有某个GO功能的转录本列表及转录本数目统计。然后应用超几何检验,找出与整个转录本组背景相比,在差异表达转录本中显著富集的GO条目,该假设检验的p-value计算公式为:
其中,N为所有转录本中具有GO注释的转录本数目;n为N中差异表达转录本的数目;M为所有转录本中注释为某特定GO term的转录本数目;m为注释为某特定GO term的差异表达转录本数目。计算得到的pvalue通过Bonferroni校正之后,以corrected-pvalue≤0.05为阈值,满足此条件的GO term定义为在差异表达转录本中显著富集的GO term。
GO功能分析同时整合了表达模式聚类分析,研究人员能方便地看到具有某一功能的所有差异转录本的表达模式。如表1establishment of localization为在A_vs_B差异表达转录本中最显著富集的一个GO term。
表1. A_vs_B_P GO显著性富集分析列表
3
GO term信息查阅
点开表1的第一个GO term名称可进入GO数据库的网站,在该网站搜索GO term名称将会显示对应GO term的详细信息,搜索表1中的establishment of localization 即可查看到如图2中的信息。
图2. A-vs-B差异GO term:establishment of localization在GO数据库中的详细信息
4
转录本差异的GO显著富集图
在得到表1中的GO显著富集后,我们根据此表绘制更直观的GO富集散点图,如图3。其中RichFactor指差异表达的转录本中位于该GO条目的转录本数目与所有有注释转录本中位于该GO条目的转录本总数的比值,RichFactor越大,表示富集的程度越大。Qvalue是做过多重假设检验校正之后的Pvalue,取值范围为0到1,越接近于零,表示富集越显著。图右侧信息依次为RichFactor值,Pvalue值以及该点对应的GO term名称。
图3. GO富集散点图
BgRatio是目标通路基因占通路集总基因比例,假设公式为 M/N
M - 目标通路基因总数(去重后)
N- 通路集总基因数(去重后),如目前KEGG通路人种为7884个基因
GeneRatio是你的基因列表富集到目的通路基因数占基因列表包含基因集总基因比例,假设公式为 k/n
k - 基因列表包含某通路基因数目
n - 基因列表包含通路集基因总数,假设基因列表为向量 A 通路集基因为 B,那么这是2者交集基因数。length(intersect(A, B))
richFactor是富集到目标通路基因数占比, richFactor = k/M
网友评论