1. 16S rRNA基因功能代谢预测
对于微生物生态学研究,我们最关注的无疑是菌群所具备的代谢功能。随着数据分析技术的发展,我们现在已能根据已知的微生物基因组数据,对菌群组成的测序数据(典型的如16SrRNA基因的测序结果)进行菌群代谢功能的预测,从而把物种的“身份” 和它们的“功能”对应起来。
根据菌群代谢功能预测结果,一方面能一窥菌群功能谱的概貌,发挥菌群多样性组成谱测序性价比高的优势;另一方面也能帮助指导后续宏基因组Denovo鸟枪法测序的实验设计,更合理地筛选用于后续研究的样本。
2. PICRUSt功能预测分析
PICRUSt(PhylogeneticInvestigation of Communities by Reconstruction of Unobserved States)是由美国哈佛大学的CurtisHuttenhower课题组开发的菌群代谢功能预测工具,通过将现有的16SrRNA基因测序数据与代谢功能已知的微生物参考基因组数据库相对比,从而实现对细菌和古菌代谢功能的预测;预测过程中还考虑了不同物种16SrRNA基因拷贝数的差异,并对原始数据中的物种丰度数据进行校正,使预测结果更准确可靠。
分析的总体思路如下:
先根据已测微生物基因组的16SrRNA基因全长序列,推断它们的共同祖先的基因功能谱;
对Greengenes 16SrRNA基因全长序列数据库中其它未测物种的基因功能谱进行推断,构建古菌和细菌域全谱系的基因功能预测谱;
将测序得到的16S rRNA基因序列数据与Greengenes数据库比对,寻找每一条测序序列的“参考序列最近邻居”,并归为参考OTU;
根据“参考序列最近邻居”的rRNA基因拷贝数,对获得的OTU丰度矩阵进行校正;
最后,将菌群组成数据“映射”到已知的基因功能谱数据库中,实现对菌群代谢功能的预测
PICRUSt能将16SrRNA基因序列在3种功能谱数据库中进行预测,即KEGG、COG和Rfam。
KEGG数据库的核心为生物代谢通路分析数据库(KEGG PATHWAY Database,http://www.genome.jp/kegg/pathway.html),其中将代谢通路归为6大类:
代谢(Metabolism)
遗传信息处理(Genetic Information Processing)
环境信息处理(Environmental InformationProcessing)
细胞进程(Cellular Processes)
生物体系统(Organismal Systems)
人类疾病(Human Diseases)
每一类代谢通路又被进一步划分为多个等级。目前,第二等级一共包括45种代谢通路子功能,第三等级即对应代谢通路图,而第四等级则对应代谢通路上各个KO(KEGGorthologous groups,KEGG直系同源基因簇)的具体注释信息。
COG(Clustersof Orthologous Groups,https://www.ncbi.nlm.nih.gov/COG/)数据库是由NCBI维护的直系同源基因数据库,是指不同个体中由于物种形成(Speciation)的进化历程而产生的的同源基因,这些基因来源于共同祖先;因此,在进化历程中,直系同源基因通常都保留了相同或相似的功能特性。
根据PICRUSt的预测结果,可以获得每样本对应于各功能谱数据库的注释信息,以及预测得到的功能类群的丰度矩阵。
KEGG功能预测:
通过OTU聚类分析,得到的OTU代表序列与Greengenes数据库比对,得到KEGGpathway 3个层级和丰度表。
COG功能预测:
通过OTU聚类分析,得到的OTU代表序列与Greengenes数据库比对,得到COG orthology和function丰度表。
利用丰度表信息完成各类可视化结果展示。
网友评论