在ncbi上搜索 kegg && Kanehisa M,这个作者简直不要太牛了哦,就一个KEGG数据库,发了好多文章啊,目前KEGG有18个数据库,每一个数据库一篇的话,呵呵哒。而且好几篇10+。想认真了解KEGG,拜读他的文献吧。很多都讲的很清楚,我随便就软件翻译了一篇他的文献,是2019刚出炉的。凑合看吧~
1区 11.147 Nucleic Acids Res. 2019 Jan 8;47(D1):D590-D595. doi: 10.1093/nar/gky962.
New approach for understanding genome variations in KEGG.
Kanehisa M1, Sato Y2, Furumichi M1, Morishima K1, Tanabe M1.
Author information
- 1 Institute for Chemical Research, Kyoto University, Uji, Kyoto 611-0011, Japan.
- 2 Social ICT Solutions Department, Fujitsu Kyushu Systems Ltd., Hakata-ku, Fukuoka 812-0007, Japan.
摘要
KEGG(京都基因和基因组百科全书; https://www.kegg.jp/或https://www.genome.jp/kegg/)是基因组序列和其他高通量数据的生物解释的参考知识库。它是一个综合数据库,包括三个通用类别的系统信息,基因组信息和化学信息,以及另一类特定于人类的健康信息。KEGG途径图,BRITE层次结构和KEGG模块
已经被开发为具有功能性直向同源物的KEGG Orthology节点的通用分子网络,使得KEGG途径作图和其他程序可以应用于任何细胞生物体。然而,遗憾的是,这种通用方法不足以
用于健康信息类别中的知识表示,其中必须考虑人类基因组的变异,尤其是与疾病相关的变异
。从而,我们引入了一种新方法,其中人类基因变体明确地纳入我们在最近发布的KEGG NETWORK数据库中称为“网络变体”。这允许积累关于疾病相关的扰乱分子网络的知识,不仅由基因变体引起,而且由病毒和其他病原体,环境因素和药物引起。我们期望KEGG NETWORK将成为另一个参考知识库,用于基本了解疾病机制和临床测序和药物开发的实际应用。
KEGG:综合数据库;
三类通用类别:
+ 系统信息
+ 基因组信息
+ 化学信息
那么进入官网后,你会发现,如今的KEEG表分成4个大框的类别:增加
+ 健康信息
[看图1,还有释放数据库的开始时间]
KEGG NETWORK数据库:网络图-突变
积累关于疾病相关的扰乱分子网络的知识,不仅由基因变体引起,而且由病毒和其他病原体,环境因素和药物引起。
介绍
保护和变异是不同层次的生物系统的固有特征。KEGG(京都基因和基因组百科全书)数据库已被开发用于理解细胞生物水平上基因和基因组的保守和变异。特别地,已经开发了用于表示基因和蛋白质的保守特征的功能性直向同源物的KO(KEGG Orthology)系统,并且已经开发了作为KO节点网络绘制的KEGG途径图谱的参考知识库,用于表示细胞过程的保守特征。和有机体的行为。该通用结构允许KEGG作图,一旦基因用KO标识符注释,就可以从其基因组中的基因集自动重建特定生物的途径。结果是,这种通用方法的缺点是由于智人被简单地视为存储在KEGG中的许多物种之一。随着KEGG数据库的健康信息类别的扩展,一种新方法已成为更好地整合人类基因组,人类途径,人类疾病和药物的必要条件(1)。因此,我们现在明确地将单一种类的人类的保守和变异纳入其中**。
**已经开发了用于表示基因和蛋白质的保守特征的功能性直向同源物的KO(KEGG Orthology)系统**:以KO作为节点,pathway包含所有物种的信息;
因此,有必要单独把人类的基因组、pathway、疾病、药物等整合起来,纳入单一种类的人类的煲粥和变异。
在KEGG中,疾病被认为是由遗传和环境因素的各种扰动引起的分子网络的扰动状态,以及被视为不同类型的扰动的药物(2)。然而,迄今为止,这种扰动并未得到很好的体现。例如,癌症和其他疾病相关基因中的已知遗传改变在疾病途径图中以红色标记,但由于它们被绘制为KO节点,因此只有参考人类基因数据与这些红色标记的节点相关联。利用本文中描述的新方法,扰动分子网络的实际数据集在新的KEGG NETWORK数据库中呈现,该数据库是网络变体的集合,例如由基因变体,病毒和其他因素引起的信号网络的变体。
利用本文中描述的新方法,扰动分子网络的实际数据集在新的KEGG NETWORK数据库中呈现,该数据库是网络变体的集合,例如
由基因变体,病毒和其他因素引起的信号网络的变体。
KEGG概述
1995年12月,KEGG的第一个版本只提供了四个数据库:PATHWAY,GENES,COMPOUND和ENZYME。如图1所示,KEGG现在由四个类别的十八个数据库组成,但基本概念保持不变。分别从PATHWAY,GENES和COMPOUND数据库扩展了三个通用类别的系统、基因组和化学信息,并引入了额外的人类特定健康信息类别,以使KEGG在实践中更有用。通路映射的想法首先通过ENZYME的EC编号系统实现,其中KEGG代谢途径图用EC编号节点绘制,并且基因组中的酶基因被指定EC编号。然而,基于EC的途径映射仅持续了5年,EC编号被直系同源ID取代,后者成为KOs。自2003年以来,路径映射由KO系统执行,其中所有KEGG途径图是用KO节点创建的,并且基因组中的基因被分配了KO标识符(K个编号)。EC编号通过KO系统间接分配给各个基因。基于KO的映射也适用于BRITE层次结构文件和KEGG模块。
最初的KEGG就四个数据库:PATHWAY,GENES,COMPOUND和ENZYME
现在的KEGG:
4个类别的18个数据库组成,
但基本概念不变,分别从PATHWAY,GENES和COMPOUND数据库扩展了三个通用类别的系统、基因组和化学信息。
并引入了额外的人类特定健康信息类别,以使KEGG在实践中更有用。
图 1
~KEGG由四个类别的十八个数据库组成,除了计算生成的SSDB之外,它们都是手动策划的。化学信息类别中的数据库统称为KEGG LIGAND。健康信息类别中的数据库以及两个外部数据库,从JAPIC数据库(http://www.japic.or.jp)获得的日本药物标签和与DailyMed数据库链接的FDA药物标签(https://dailymed.nlm.nih.gov/),统称为KEGG MEDICUS。~
图说明数据库之间的关系和施放时间!!!
2017年12月,KEGG NETWORK数据库与KEGG VARIANT的相关数据库一起发布。两者都是人类特定的数据库,并构成健康信息类别的一部分(图1)。KEGG NETWORK是我们首次尝试明确考虑单一物种内的基因组变异。虽然我们只考虑与人类疾病和药物相关的变异,但KEGG NETWORK中使用的方法可以应用于任何物种的任何变异。在以下部分中,我们将介绍KEGG NETWORK和过去两年的其他发展。有关KEGG数据库的更完整描述可以在2017年核酸研究数据库问题(1)的前一篇文章中找到。
2017年12月,KEGG NETWORK数据库与KEGG VARIANT的相关数据库一起发布。两者都是人类特定的数据库,并构成健康信息类别的一部分。
KEGG NETWORK
从基因变体到网络变体
图2说明了KEGG NETWORK背后的概念。与用于了解细胞生物保护和变异的通用KEGG数据库相比,KEGG NETWORK专注于人类智能,提供更详细的图片,特别是在网络 - 疾病关联方面理解人类疾病(2))。在KEGG PATHWAY数据库中,基于KO的参考途径是从已发表的文献手动创建的,并且计算生成所有生物特异性途径的实例。KEGG NETWORK数据库是网络元素的集合,其中参考和变体网络元素都是根据已发布的文献手动创建的。参考网络元件由人类基因ID表示,而变体网络元件可包含基因变体,病毒蛋白质,环境因子和药物。因此,变体网络元件(也称为网络/变体)不仅可以适应基因变体,而且可以适应其他扰动因素以理解与疾病相关的扰动分子网络。
KEGG NETWORK专注于*人类智能*,提供更详细的图片,特别是在网络 - 疾病关联方面理解人类疾病
在KEGG PATHWAY数据库中,基于KO的参考途径是从已发表的文献手动创建的,计算生成pathway
Network/va:有网络中的元素组成,其中:参考和突变的因素都是从已发布的文献手动创建的。
+ 参考网络元素:由人类的ID表示
+ 变体网络元素:由基因变体、病毒蛋白质、环境因子和药物。
因此:
通过变体、其他扰动因素来更好的理解与疾病相关的扰动分子网络!
图 2
KEGG NETWORK数据库的概念图。与将*人类*作为KEGG中的6000种物种之一处理的传统方法相比,**新方法允许明确地结合人类基因和基因组的变体**。
癌症网络变种
KEGG NETWORK数据库将包含与各种疾病相关的网络变异,但截至2018年9月,它包含癌症,病毒感染和某些类型的内分泌和代谢疾病的网络变体
。图3显示了癌症网络变体的实例。癌细胞获得特征,称为通过的Hanahan和Weinberg(癌症标志3,4),如维持增殖信号传导和抗细胞死亡,这是紧密相关的扰动信号传导途径如MAPK信号传导和PI3K-AKT信号传导途径。图3A显示了MAPK信号传导途径图(KEGG ID:hsa04010)的一部分,其主要途径是从生长因子到以粉红色标记的ERK激酶。数字图3B示出了NETWORK数据库中该路径的所选数据,其中每个网络元素由N号标识,并且网络元素的集合可以在我们所称的网络变化图中查看。
图 3:(A)KEGG途径图(hsa04010)中的MAPK(ERK)信号传导途径,其中从生长因子到ERK激酶的主要途径以粉红色标记
。 (B)网络变体图(nt06201)的示例,作为与(A)中的主路径对应的网络元素的集合。 文本着色表示:参考网络元素为绿色
,基因变异为红色
,病毒蛋白为紫色
。
网络变异图采用颜色编码:绿色参考网络元素,红色基因变体,紫色病毒蛋白质和蓝色药物。如图3B所示,地图可以以对齐模式显示,意味着变体网络元素与参考网络元素对齐,并且可以与左侧的另一种颜色编码指示的癌症类型相关联,例如非绿色。小细胞肺癌和褐色黑色素瘤。图3包含众所周知的MAPK信号通路组成性激活的例子,导致持续的增殖信号传导,如EGFR突变(N00014)和EML4-ALK融合(N00007)在非小细胞肺癌,BCR-ABL融合( N00002)在黑色素瘤中的慢性髓性白血病和BRAF突变(N00013)。
网络元素的节点和边缘
目前,每个网络元素是由不同类型的边连接的线性节点序列,如图4所示。节点包括人参考基因(由KEGG基因中的hsa ID鉴定),人基因变体,病毒蛋白,代谢物和药物。边数的双字符文本表示用于N数字条目的定义字段,边缘的符号表示用于网络变体映射。
图 4.jpeg图 4:KEGG网络元素的节点和边缘。
看图的Node、Edge的信息描述
基因变体可包括(i)通过激活突变,扩增和融合获得功能,(ii)通过灭活突变和缺失而丧失功能和(iii)基因/蛋白质过表达。它们存储在KEGG VARIANT数据库中,并由变体ID识别,例如hsa_var:1956v1和hsa_var:1956v2,分别代表EGFR(hsa:1956)扩增和突变。每当变体条目被认为是等同的时,每个变体条目可以包含已知突变的多个实例和其他遗传改变。例如,1956v2由外显子19缺失和L858R突变组成。KEGG VARIANT数据库还包含指向外部数据库的链接,如ClinVar(5),dbSNP(6)和COSMIC(7)。
KEGG VARIANT数据库还包含指向外部数据库的链接,如ClinVar(5),dbSNP(6)和COSMIC(7)
图3B包含由病毒蛋白,卡波西肉瘤相关疱疹病毒(KSHV)的K1蛋白引起的网络变体(N00160)。这种病毒癌蛋白激活多种途径以维持增殖信号传导和抵抗细胞死亡,这类似于人癌基因,如图5所示的EML4-ALK融合基因。病毒蛋白质扰动的另一个重要方面涉及逃避免疫破坏,这在致癌病毒和非致癌病毒中均可观察到。其中一种逃避策略称为病毒模仿(8),编码调节免疫反应的蛋白质同源物,如细胞因子和细胞因子受体。KEGG NETWORK正在组织病毒蛋白的这些和其他扰动,以及KEGG PATHWAY中病毒感染的增强版路径图。
m_gky962fig5.jpeg图5 比较KSHV的癌蛋白K1和癌基因EML4-ALK在非小细胞肺癌中激活的信号通路。 这些途径涉及维持增殖信号传导和抵抗细胞死亡。
药物 - 目标关系
KEGG NETWORK数据库还包含药物 - 靶标关系,特别是对于那些以变体蛋白质为靶标的药物。图6显示了针对图3B中所示的MAPK信号传导途径中的基因变体的抗癌药物。由于癌细胞可通过二次突变产生对分子靶向药物的抗性,因此区分药物 - 靶标关系和相应的变体数据。例如,伊马替尼,克唑替尼和吉非替尼的第一代酪氨酸激酶抑制剂与后代的对应物不同。这些数据主要来自DailyMed数据库中的FDA药物标签。
gky962fig6.jpeg图 6:抑制信号传导途径的抗癌药物的药物 - 靶标关系的实例如图3B所示。
KEGG的其他发展
KO系统更新
KEGG GENES数据库的附录类别于2015年引入,作为已发布的蛋白质序列数据的集合,具有经过实验验证的功能信息(9)。虽然与完整基因组的主要类别(2700万个基因)相比,序列的数量非常少(<5000个蛋白质),但附录类别对于定义功能性直向同源物的KO组非常有用。截至2018年9月,KO数据库包含超过22 000个KO条目,其中85%与出版物相关联,68%与序列数据相关联,这可被视为定义KO的核心序列数据。10%的链接序列数据在附录类别中。KEGG GENES数据库的注释(KO分配)率不断提高,目前为48%,因为KO数据库每年增长5-7%。
KO系统是表示基因和蛋白质功能分类的KO条目的分级分类。KO系统最初是作为基于途径的分类而开发的,但由于包含其他数据集,KO系统(KEGG ID:ko00001),PATHWAY分类(br08901)和BRITE分类(br08902)之间存在差异。这已得到纠正,新的KO系统由八个顶级类别组成:六个用于PATHWAY(代谢,遗传信息处理,环境信息处理,细胞过程,有机体系统和人类疾病),一个用于BRITE(Brite Hierarchies),另一个用于空余(不包括在Pathway或Brite中)。
新的KO系统由八个顶级类别组成:
六个用于PATHWAY(代谢,遗传信息处理,环境信息处理,细胞过程,有机体系统和人类疾病),
一个用于BRITE(Brite Hierarchies),
另一个用于空余(不包括在Pathway或Brite中)。
酶命名法的序列数据
自1961年以来,酶委员会(目前是IUBMB / IUPAC生物化学命名委员会)已经制定了酶命名法列表,其由分级分类的EC(酶学委员会)编号组成,其给出了实验观察和公布的酶促反应。KEGG ENZYME是从ExplorEnz数据库中获取的酶命名法的实现(10)以及关于原始实验中使用的酶的序列数据的额外信息。酶命名列表不断扩展,它是寻找蛋白质功能新出版物的最重要来源。手动检查这些出版物以识别序列数据,这些数据通常作为附录条目并入KEGG GENES。然后,在适当的情况下,使用EC编号的关联来定义新的KO条目。KOs和EC编号之间的关系是多对多的。一个KO可以与多个EC编号相关联,并且一个EC编号可以被给予多个KO。
截至2018年9月,超过6000个EC条目中约有一半与序列数据相关联。图7显示了EC条目与创建年份的数量,其中已知序列为蓝色,而未知序列为灰色。大多数最近添加的EC条目与序列数据相关联,但最初出现在酶列表的印刷版本中的旧条目更成问题,因为通常情况下酶被分离并且实验是在不知道的情况下进行的序列数据。
m_gky962fig7.jpeg图 7:每年分配的EC编号。蓝色表示EC编号的分数,其中可以鉴定原始实验中使用的酶的序列数据。
DISEASE和DRUG数据库的改进
由于NETWORK和VARIANT数据库是在健康信息类别中引入的,因此DISEASE和DRUG数据库已经发生了一些变化。首先,DRUG数据库的Target字段现在包含根据药物 - 目标关系的网络数据的变体ID(图6)。其次,疾病登记(由H号码识别)和药物登记(由D号码识别)之间的联系仅基于药物标签。DRUG数据库的疾病字段包含药物标签中指示的疾病,并且自动为DISEASE数据库的药物字段生成反向链接。因此,<u>基于FDA药物标签的英文版与基于日本药品标签的日文版之间的药物 - 疾病联系存在一些差异</u>。第三,通过引入子组和超组名称来重组疾病条目之间的关系。第四,疾病登记由世界卫生组织于2018年6月发布的ICD-11代码提供.ICD-11疾病代码和ATC药物代码起着与许多外部资源相连的作用。
除DISEASE数据库Gene基因领域的人类基因组与疾病关系外,病原体基因组与传染病关系正在DISEASE数据库的病原体领域进行重组,该数据库现在包含用于致病性和抗菌性的特征模块的模块子字段。抵抗性。甲识别病原体的基因组抗菌素耐药性的工具是可用的(11)作为BlastKOALA服务器(的一部分12,13)。
访问KEGG
KEGG可在KEGG主站点(https://www.kegg.jp/)和GenomeNet镜像站点(https://www.genome.jp/kegg/)上获得。对KEGG关系数据库和一些工具,如BlastKOALA和GhostKOALA(直接查询12,13)仅在主站点,而宏基因组数据(MGENOME和MGENES)和各种分析工具都保持在GenomeNet网站。可以通过在任一站点首页的搜索框中输入ID来检索本文中提到的KEGG ID的内容,例如hsa04010,nt06201,N00014和hsa_var:1956v2。
致谢
计算资源由京都大学化学研究所生物信息学中心提供。
资金
日本科学技术厅国家生物科学数据库中心(部分)。开放获取费用资金:日本科学技术厅国家生物科学数据库中心。
利益冲突声明。没有声明。
释放历史:
网友评论