数据准备:
明白了GO富集的原理后,我们需要准备的数据就只有两份:前景基因文件和背景基因文件。
富集目的基因文件(前景基因文件):就是你要富集分析的基因集。在上面的例子中,就是对照组vs处理组的差异表达基因。格式为每行一个基因ID,文本文件(制表符分隔)(*.txt)。
GO背景基因文件:就是所有的基因集,在上面的例子中,就是对照组和处理组所有的表达基因。
1)如果你研究的物种是有参考基因组的模式物种,那么可以直接使用数据库上已有的参考基因作为背景基因文件。目前提供的物种有水稻、拟南芥、小鼠、大鼠、斑马鱼、鸡、秀丽线虫、果蝇、人。ID类型可选择基因ID或转录本ID,根据富集目的基因的ID类型决定。如果不清楚自己的文件是什么ID,可以点击“预览参考文件”来查看具体ID。后面的“版本”是最新的Ensemble版本号。
2)如果你研究的物种不在这些选择范围内,那么就要自己准备GO背景基因文件了。
因为一个基因可有多个GO term,所以文件格式有两种:一种为第一列为基因ID,第二列为所对应的GO term,如下表:
另一种为第一列是基因ID,第二列之后为同一个基因的所有GO号,这种格式也是我们基迪奥的转录组denovo流程出来的结果格式,如下表:
上传这两种格式中的任何一种都是可以的~ 要记住,前景基因文件里的基因ID必须包含在背景基因文件里面!
如何得到基因的GO注释?
有一些同学不知道如何获得背景基因的GO号。通常,如果你的数据是从公司测序得到的,那么测序报告里都会有。如果你是自己捣腾的数据,那么,如果是无参考基因组的物种,就需要根据unigene的Nr注释,用Blast2go软件得到unigene的GO注释信息。具体Blast2go的使用,可参考我们第二期在线交流课堂:http://www.omicshare.com/forum/thread-176-1-1.html。如果是有参考基因组的物种,可以在GO 官网上下载GO注释信息,也可以在Biomart上下载物种的GO注释信息,我们也有相应的教程:http://www.omicshare.com/forum/thread-437-1-1.html。
上传完这两个文件后,点击“提交”就OK了。等着收菜~~
三、结果解读: 这次我试运行的数据为荔枝趋势分析文章里的趋势分析结果数据,我以profile1包含的基因为前景基因集,所有趋势包含的基因为背景基因集,做GO富集分析。
1. GO二级分类图(out.secLevel.png/svg)
这个图显示了profile1的基因在各个GO term的数目和富集情况。横坐标代表GO三个 ontology的更细一级分类,即二级分类;纵坐标代表每个分类条目所包含的基因数目。由于一个基因常常对应多个GO term,因此同一个基因会在不同分类条目下出现,即被多次统计,因此如果你把这里所有柱子的基因数目加起来,肯定是多于profiel1总的基因数目的。
2. GO富集结果表(out.[PFC].html ) 三个Ontology(C, F, P)会分别展示。以生物过程(biological process)为例子,如下表:
第一列为GO term的ID,点击GO ID,可显示这个GO term包含的所有基因:
再点击这个GO ID,就可以链接到 http://amigo.geneontology.org 官网,可以查看GO的具体信息。
第二列为GO term的功能描述;
第三列前面的数字为差异表达基因中富集到这个GO term的基因数,后面的数字为差异表达基因的总数;
第四列前面的数字为背景基因中富集到这个GO term的基因数,后面的数字为背景基因的总数;
第五列为P value,即计算第三列的百分比与第四列的百分比相比,是否有显著差异。我们将小于0.05的P value标红显示;
第六列为多重检验校正后的Q value,也是把小于0.05的Q value标红显示。这些GO term是按照P value从小到大排列的,方便老师找差异富集结果。如在这个例子中, microtubule-based process为在差异基因中富集最显著的GO term,说明profile1中的基因显著富集于这个功能。
-
GO有向无环图(out.C/P/F.png)
从整体上来看,GO注释系统是一个有向无环图 (Directed Acyclic Graphs),GO各term之间的关系是单向的,GO term之间的分类关系有三种:is a、part of 和 regulates。具体的解释可看这个帖子: http://www.omicshare.com/forum/thread-538-1-1.html。富集分析结果会分别给出GO三个ontology(细胞组分、分子功能、生物过程)的有向无环图,如下图是生物过程的有向无环图:
在这个图中,越接近根结点的GO term越概括,往下分支的GO term为注释到更细层级的term。我们来看每个GO term里的含义:
其中,Pvalue 这一行,如果大于0.05,即会显示NA,即图中只显示显著的P value。
形状的含义:程序默认把显著性最高的前10个GO term设置为方形,其他的GO term为圆形。
颜色的含义:颜色越深,代表该GO term越显著。颜色由浅到深分别为:无色——浅黄——深黄——红色。
那么,从颜色上来看,在molecular function这个ontology上,最显著的GO term是GO:0003774。因此后续可以从这个GO term入手,这个GO term所在的分支上的其他GO term也值得研究。
意义:
GO有向无环图展示了GO term之间的分类关系,并且从另一方面帮助老师寻找显著富集的GO term。
四、引用
大家如果在数据处理的过程中,使用了我们的omicshare tools云工具网站,那么在文章中的method部分可以这样引用: GO enrichment analysis was performed using the OmicShare tools,a free online platform for data analysis (www.omicshare.com/tools)。
网友评论