1 摘要
人类代谢组数据库HMDB (https://hmdb.ca)自2007年以来一直致力于提供有关人类代谢物及其相关生物、生理和化学特性的全面参考信息。在过去的15年中,HMDB数据库已经发生了很大的扩展和进化,以满足代谢组社区的要求。今年更新的HMDB5.0 带来的许多重要的改进和升级,具体包括:
(1)代谢物条目的显著增加(从114100个至217920个)
(2)增强了代谢物描述的质量和深度
(3)增加了新的结构、谱图、可视化工具
(4)包括了许多新的、更准确的预测谱图数据集,包括预测NMR谱图,MS谱图,保留时间指数,离子淌度质谱的碰撞截面积CCS等信息
(5)增强了HMDB的搜索功能,以促进更好的识别化合物
2 简介
人类代谢组数据库(HMDB)是世界上最大、最全面的生物特异性代谢组数据库。 它包含丰富的注释,严格地交叉检查,广泛的参考信息,收录了目前已知的人类代谢物。这包括HMDB的“MetaboCard”中包含的化学结构、名称或标识符、详细的文本描述、参考文献、化学分类、生物作用、生理浓度、组织/体液位置、疾病关联、遗传关联、化学和酶促反应、代谢途径和用作参考的 MS/MS(串联质谱)、GC-MS(气相色谱质谱)和NMR(核磁共振)谱图的信息。
HMDB支持广泛的交互式web查询,允许代谢组学研究人员通过 文本、结构、质量值、谱图 进行搜索确认和注释人类或者其他哺乳动物的代谢数据。不同于一般代谢物或代谢途径数据库,如KEGG,Reactome 和 Cyc 数据库或一般的谱图数据库,如BioMagResBank,Metlin或MassBank数据库(https://massbank.eu/MassBank/), HMDB不仅仅是一个化合物或谱图的档案数据库。相反,它是一本插图色彩丰富、广泛注释的在线百科全书,涵盖了几乎所有已知的人类代谢物。
HMDB的第一个版本(HMDB 1.0) 仅包含 2180 种人类代谢物的有限生物、生理和物理化学数据。2009 年发布的 HMDB 2.0 包含了 6408 种人类代谢物的谱图数据和更多文献来源的生理和生化数据。2013年发布的HMDB 3.0共包含了 40153 种人类代谢物。第三个版本极大地扩展了HMDB的谱图参考库,增加了代谢途径数据,并使现代化的 HMDB 用户界面。HMDB 4.0于2018年发布,共包含 114 100 个化合物。该版本大幅增加了NMR、MS/MS和GC-MS参考谱图的数量以及所示代谢途径的数量。它还增加了代谢反应、药物代谢组学数据、代谢物-snp关联的新数据,并引入了ClassyFire化学分类。
3 新的代谢物条目
代谢组学研究人员面临的最大挑战之一是质谱中 m/z 特征的注释和识别。在许多情况下,在基于非靶向质谱人类代谢组学研究中,可以确定的m/z的特征数量小于2%。即使在靶向代谢组研究中,也很少能识别超过900种人类代谢物,这只占已知人类代谢物的1%。这表明,HMDB或者其他数据库中代谢物和质谱的覆盖都是不完整的。
为了解决这个问题,HMDB团队进行了大量工作,以增加HMDB的代谢物覆盖率。从2018年到2020年,对文献进行了连续扫描,并对已发表的代谢组学和暴露组学(所谓暴露组,指的是我们生活中所经历的所有内部和外部化学暴露)研究进行了更详细的历史回顾。这导致新的 1476 种代谢物被添加到数据库中。从2021年开始,开展了更集中的工作,以扩大HMDB对氧化脂类(即具有氧化酰基链的脂类)、磷脂、酰基肉碱、食物衍生化合物,硫酸盐代谢物以及新批准的药物和 一些微生物或者肠道衍生物 的覆盖范围,这些补充需要仔细审查大量的论文和教科书。
最终,HMDB 5.0现在共有 217920 种化合物。除了这些注释的代谢物之外,HMDB还保留了1581537 个未注释的衍生化合物集合,这些衍生化合物对应于 TMS 和 TBDMS 衍生的代谢物,可以通过GC-MS方法检测到。
人类血液中发现的所有暴露组化合物,胆汁氨基酸缀合物,食物衍生化合物,硫酸盐代谢物及其他新发现的人类代谢物,新批准的药物和微生物或者肠道相关的代谢物在 HMDB 数据库中被分类为 “detected but not quantified” 或者 “detected and quantified” 代谢物。这一分类自2013年以来一直存在于HMDB中,仅仅意味着有可靠的实验证据和文献数据支持代谢物的存在和/或量化。另一方面,绝大多数新添加的脂类和脂类/酰基衍生物在HMDB中被归类为 “expected but not quantified” 的化合物。这一类别也是自2013年开始实施的,包括基于生物化学、酶学或已知成分(即酰基链)在人体内发现的代谢物。它们的结构和存在的证据是基于HMDB管理团队广泛的文献回顾,以及对人类样本中已知成分的详细分析,以及从各种生物体液和组织的人类代谢组学研究中报告的假定鉴定。HMDB 5.0中每一个新添加的代谢物都经过了HMDB全面的数据更新过程,每个代谢物都有一个登录号。
3 改进的代谢物描述
HMDB 的一个特别优势是它丰富的代谢物描述集合。HMDB 中的每一种化合物都有50到500字的详细文字描述,描述了该化合物的作用,以及它在体内或细胞中的位置。此外,HMDB中的许多代谢物具有关于其在生物体液或组织中的发生、正常/异常浓度、疾病关联、MS和/或NMR光谱、已知途径、外部数据库超链接以及相关酶或转运体的额外信息。为了更新HMDB 5.0,团队共同努力对800多种已知或与疾病相关的代谢物进行手动研究、重写和修正化合物描述。
除了对HMDB化合物描述的这些广泛改进之外,另一个主要的数据更新工作是针对扩大HMDB 5.0中实验测量数据的数量。这些实验测量数据包括维生素水平(正常和异常)的更多定量数据,人类粪便代谢组的广泛代谢物数据,新生儿尿代谢物参考值的定量数据和NIST(国家标准研究所)人类血清参考值称为SRM-1950的大量定量数据。这些更新在每个MetaboCard的 “Normal/Abnormal” 字段下可见。总共有超过 19715 个化合物浓度被添加、校正或注释。同样,也添加了大量纯化参考化合物的实验 NMR 和 MS 数据。这些更新在每个MetaboCard的“Spectra”字段下可见。
4 新的可视化工具
为了提高其结构可视化工具的质量,HMDB 5.0 在每个MetaboCard的 “Structure”字段中包含了几个新的选项。除了为“3D SDF”,“3D MOL”和“PDB”格式的文件提供新选项外,用户现在可以在缩略图下选择一个浅蓝色选项,称为“View In JSmol”,通过JSmol可视化分子的3D结构。这将生成分子的交互式3D显示(在一个新窗口中),支持鼠标驱动的分子旋转和缩放。用户也可以选择缩略图结构下面的另一个浅蓝色标签,称为“View Stereo Labels”,以可视化结构的绝对配置(R/S注释)指示在所有手性中心。这些图像的示例如图1所示。
image.png
在HMDB 5.0中还提供了新的谱图观测选项。每个MetaboCard现在有三个光谱数据字段头(橙色或棕色条)标记为:
(i) MS/MS谱;(ii) GC-MS谱和(iii) NMR谱。单击“View Spectrum”按钮选项卡将用户带到HMDB谱图查看页面(NMR和MS光谱之间略有不同)。对于预测的MS数据,JSV允许用户将鼠标放在每个峰值上,以交互方式查看预测的质量和片段离子结构。实验光谱和预测光谱的质谱数据均可下载,包括m/z值和强度列表(*.txt格式)和mzML格式。
HMDB路径可视化工具的进一步改进也在HMDB 5.0中继续进行。PathWhiz作为PathBank项目的一部分创建的路径图像,相对于HMDB 4.0中发布的路径图像,已经变得越来越标准化,注释更全面,视觉上更复杂。Fig2 是尿毒症毒素途径的一个例子,说明了硫酸吲哚酚的毒性作用和影响。
image.png
5 新的谱图数据
对于代谢组学研究人员来说,识别和注释代谢物的关键是谱图数据能准确的关联到特殊的参考化合物。将实验获得的观测值与参考化合物数据库进行比较,可以识别代谢物。这些观测值可能包括母离子质量、加合物质量、MS/MS谱图(在不同碰撞能量下)、EI-MS谱图、H或C NMR谱图、碰撞横截面(CCS)数据、保留指数和保留时间。
HMDB 5.0继续扩大其实验收集的观测数据的收集,包括MS/MS, EI-MS和NMR谱图。然而,很明显,在公共数据库中保存的新的和代谢相关的实验MS和NMR谱的数量正在迅速减少。同样地,这些实验测量的观测资料所提供的覆盖范围通常是HMDB的5%(通常要少得多)。由于覆盖范围有限,HMDB管理团队越来越重视生成准确预测的可观测数据。虽然实验收集的观测值总是优于预测的观测值,但预测具有提供完整或接近完整的代谢组覆盖的优势。
对于HMDB 5.0,大量资源被用于开发或实现:
(i)更准确的MS/MS预测;
(ii)精确的1D 1H和13C NMR谱预测;
(iii)准确预测保留指数用于分析GC-MS数据;
(iv)准确预测撞横截面(CCS)数据用于离子淌度质谱(IMS)数据分析。
HMDB 5.0的MS/MS预测是使用 QTOF MS/MS 谱图预测的竞争性片段建模工具,称为CFM-ID 4.0。CFM-ID 4.0在更大的数据集上进行训练,包括更复杂的机器学习方法,以改善对环状裂解和分子拓扑的处理。它还结合了手工制作的碎片规则来处理脂类、多酚类、酰基肉碱和其他“模块化”分子。根据一些客观标准的衡量,CFM-ID 4.0的性能比以前版本的CFM-ID提高了约30%。
结果表明,CFM-ID 4.0能同时预测 QTOF质谱正离子模式和负离子模式在在HMDB 5.0版本的217920 种代谢产物 ,在三种不同的碰撞能量(10,20和40 eV),这导致生成1 440 324个MS/MS谱 (HMDB 5.0中每个代谢物条目对应6个谱),有数百万个预测片段标签——所有这些都已在每个HMDB中呈现为交互式显示JSV开发的MetaboCard中。
这些MS/MS数据也被合并到HMDB新的MS/MS搜索功能中。请注意,Orbitrap的质谱图与QTOF非常相似(主要是峰强度不同,而不是峰位置不同)和与之匹配的谱与Orbitrap质谱相比,CFM-ID预测的QTOF质谱往往能得到很好的结果。
6 提升搜索功能
“LC-MS Search”和“LC - MS/MS Search” 功能现在都支持IMS数据作为额外的搜索约束。两者都有一个选项,可以输入一个默认 5% 偏差的CCS值(淌流质谱的预测横截面)。用户可以选择三个特定CCS预测器中的任意一个,也可以选择所有三个CCS预测器(ALLCCS预测器,可参考 https://pubmed.ncbi.nlm.nih.gov/32859911/)的平均值。如果没有提供CCS输入值,搜索函数仍将在没有CCS约束的情况下执行常规的MS或MS/MS搜索。
HMDB新的“LC-MS Search”的匹配化合物根据它们的m/z和CCS匹配进行排名(使用90%的delta m/z和10%的delta CCS的组合权重)。来自HMDB ' LC-MS Search '的输出表提供了一个可浏览的列表,其中包含了匹配的复合名称、HMDB链接、它们的m/z值、CCS匹配(如果提供了CCS值)和总体分数。
以类似的方式,HMDB新的“LC-MS /MS Search”的匹配化合物根据其谱图相似性和CCS匹配进行排名。来自HMDB的“LC-MS/MS Search”的输出表提供了一个可浏览的列表,其中包含了匹配的化合物名称、HMDB链接、它们的m/z值、光谱相似性、CCS相似性(如果提供了CCS值)和总体得分。点击“Show Spectrum”会产生一个JSV镜像图,输入光谱显示在顶部(红色),匹配的MS/MS光谱显示在底部(蓝色)。“LC-MS Search”和“LC MS/MS Search”都有一个“加载示例”按钮来说明这些新的搜索功能是如何工作的。
7 HMDB数据库是完全兼容的
为了确保可查找性,HMDB中的所有条目都有一个唯一且永久的7位HMDB标识符。为了确保可访问性,HMDB网站是开放和免费的,其数据下载操作与所有现代网络浏览器兼容。HMDB可下载的光谱数据文件有通用可读的nmrML和mzML格式。此外,所有的MS/MS和GC-MS光谱都被分配了SPLASH键,用于快速的光谱查询和匹配。
8 结论及未来的方向
随着代谢组学文章的爆炸性增长(现在平均2000篇/年),越来越难以跟上代谢生物体液关联和代谢生物标志物鉴定的最新文献。为了应对这些挑战,越来越多的HMDB数据库更新过程将依赖于基于计算的数据收集和自然语言处理技术。
9 参考文献
[1] Wishart D S , Guo A C , Eponine O , et al. HMDB 5.0: the Human Metabolome Database for 2022[J]. Nucleic Acids Research, 2021.
网友评论