我们有时候很关心基因所在的pathway、上下调控以及一堆基因富集到的pathway,再或者同源基因等信息,KEGG数据库也算是目前(注释)常用的明星数据库
KEGG:京都基因和基因组百科全书
-
产生背景:如何借助计算机全面的展示细胞和生物所包含的生物学信息室后基因组时代的重大挑战之一。科学家期望能够根据基因组中的信息,用计算机计算或者预测出的比价复杂的细胞中的通路或者生物的复杂行为,出于这个目的,日本京都大学生物信息学中心的Kanehisa实验室于1995年建立了生物信息学数据库KEGG。现在是基因组测序和其他高通量实验技术产生的大规模分子数据集的整合和解释的重要参考知识库。
-
内涵:KEGG是一个数据库资源,用于从基因组和分子水平信息中了解生物系统的高级功能和效用,例如细胞,生物体和生态系统。它是生物系统的计算机表示,由基因和蛋白质(基因组信息)和化学物质(化学信息)的分子构建块组成,它们与相互作用,反应和关系网络的分子接线图的知识相结合(系统信息) )。它还包含疾病和药物信息(健康信息)作为生物系统的扰动。https://www.genome.jp/kegg/kegg1a.html
-
特点:人工创建了一个知识库,基于使用一种计算的形式捕捉和组织实验室得到的知识而形成的系统功能知识库。它是一个生物系统的计算机模拟。(https://www.kegg.jp/kegg/)
-
KEGG具有强大的图形功能,来介绍众多的代谢途径以及各途径之间的关系。
- genes数据库里:储存基因组信息,包括完整和部分‘’测序的基因组序列;
- pathway数据库:储存更高级的功能信息
- LIGAND数据库:包含关于化学物质、酶分子、酶反应等信息
- LinkDB:链接世界上其他一些大型生物信息学数据库
KEGG数据库目前统计的数据
KEGG当前统计.pnghttps://www.kegg.jp/kegg/docs/statistics.html,能看到有536条pathway。406个module。
KEGG Orthology 数据库
KEGG建立了KEGG直系同源系统(the KEGG Orthology(KO) system) ,该系统吧分析网络的相关信息连接到基因组在中,从而发展和促进了跨物种注释流程。因此在KEGG 数据库中,直接存储分子功能的就是KEGG Orthology 数据库。
- KEGG Orthology 简称KO,该数据库中的每一条记录用K number 唯一标识。基于同源基因具有相似功能的假设,把基因的功能进行了扩充。对于某个物种中功能研究的很清楚的基因,在不同的物种间搜寻该基因的同源基因,将这些同源基因定义为一个orthology, 用该基因的功能作为该orthology 的功能;这样就将对于不同物种基因功能的研究都利用起来,提供了一个全面的研究基因功能的数据库。(https://cloud.tencent.com/developer/news/119170)
- 特征:他是蛋白质或酶的一个分类体系,序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后被打上KO(或K)标签。
- 代谢通路图可以找到Ortholog table表:同源基因
KEGG的pathway
根据相关知识手绘的,这里的手绘的意思可能是指人工以特定的语言格式来确定通路各组件的联系。
基因组信息主要是从NCBI等数据库中得到的,除了有完整的基因序列外,还有没完成的草图。
ko编号就是一个pathway,例如ko04722,这个通路不分物种,相当于所有物种这一通路的并集
K编号表示一个基因,例如K02582,是ko通路中的基本单元,某一K编号代表的不是某一具体物种的基因,而是所有物种的某一同源基因的统称。
pathway,module 等数据库都是建立在KO数据库的基础上的,KO可以说是KEGG中处于核心地位的一个数据库,所以理解KO数据库就特别的重要。
对于一个具体的KO来说,在这个KO下是一系列基因,这些基因可以来源于不同的物种,但是具有相同的功能。以K00161为例,对应的同源基因的列表可以从KEGG的官网查询得到。
pathway的五种类型:
仅仅第一种参考通路是手动画出来的,其他的通路图都是通过计算产生的。pathway中的每一个框或线都对应一个或多个K编号、EC编号及R编号。
- map - Reference pathway:对于代谢相关的通路,在reference pathway中,一个点同时表示一个基因,这个基因编码的酶或这个酶参加的反应
- ko - Reference pathway(KO):KO通路中的点只表示基因
- ec - Reference pathway(EC):EC通路中的点只表示相关的酶
- rn - Reference pathway(Reaction):Reaction通路中的点只表示该点参与的某个反应、反应物及反应类型
- org - Organism-specific pathway map:对于所有的代谢和非代谢通路,K编号都被认为是基因的标识符,这个标识符在每一个物种中对应该物种中的某个基因,从而得到物种特异性的pathway。
KEGG主页可以搜索的类型如:
- map00010
- ko00010
- ec00010
- rn00010
- hsa00010
网友评论