chemical structure文章出处:https://iupac.org/100/stories/what-on-earth-is-inchi/
发表日期:2018.02.01
翻译日期:2019.03.31
译者:幻华;翻译水平有限,请谅解并欢迎提出建议或意见。
RAY BOUCHER, JOHN WILEY; STEPHEN HELLER, INCHI TRUST; RICHARD KIDD, ROYAL SOCIETY OF CHEMISTRY; ALAN MCNAUGHT, INCHI TRUST; AND IGOR PLETNEV, MOSCOW STATE UNIVERSITY
1.化学界的新的通用语言IUPAC和InChI(IUPAC and InChI - Providing a New Common Language for Chemistry)
由IUPAC倡导,全球化学家参与制定的国际化合物标识(InChI,International Chemical Identifier,发音“en-chee”)是世界范围
内基于计算机的化学结构表示标准。InChI的格式和算法都是非专有的,同时软件也是开源,化学界正对其进行持续的开发。
1.What on Earth is InChI视频
这项世界范围内的合作努力的结果是开发,维护和扩展开源、免费提供的非专有国际化学标识符(InChI),首先是NIST组织,现在是InChI Trust(1)。InChI Trust组织是一个由成员组织的捐款支撑的非盈利英国慈善机构。
超过100名的化学信息学家(chemical information specialists)和计算化学家(computational chemists)组成了一个互联网论坛。在每次公开发布软件前,该论坛负责检查和测试软件。全球用户社区的这种最佳质量控制已经使得软件的不断改进和不断由新版本的发布。该项目由兼职项目主管和程序员组成,依赖来自世界各地的许多志愿者的投入。
现在InChI已经普遍用于数据库,出版物和化学信息学软件中的化学结构处理,在这些领域中可以认为InChI无处不在。 将InChIs和InChIKeys添加到他们的数据和信息中:
- PubChem – 9300万结构
- European Biometrics Institute UniChem – 1.51亿结构
- Royal Society of Chemistry – ChemSpider – 6000万结构
- National Cancer Institute – Chemical Structure Lookup Service – 7400万结构
- ChemNavigator iResearch Library – 3.71亿结构
- Elsevier – Reaxys – 2900万结构
- ACS/CAS – Chemical Abstracts Service – 超过1亿结构
InChI和InChIKey已经成为全世界科学家必不可少的工具,为化学提供了一种新的通用语言。这些工具的力量使化学家和计算机能够更有效地交流,从而加快科学研究的步伐。
2.InChl是如何为科学创新做出贡献?(How does InChl contribute to scientific innovation?)
在过去的100年里,IUPAC通过出版IUPAC Color Books (2)已经成为标准化学命名的权威。随着时间的推移,化学家们创造了化学名称的巴别塔(Tower of Babel)。由于在过去30多年中以电子形式创建了大量信息,因此定位信息和数据往往极具挑战性。对于相同的化学品具有不同的名称使得化学家工作者很难找到所需的所有必要信息。例如,在PubChem(3)中搜索,像Valium(地西泮,diazepam)这样的普通药物至少有291个不同的名称,Lipitor(阿托伐他汀,atorvastatin)有大约143个名字。 在PubChem苯(benzene)中有498个供应商提供的同义词。
IUPAC InChI降低了复杂性,并提供了一个独特的字符串,用于链接互联网上可用的众多公共和私人化学信息,即出版,专利,化学品库存,化学品贸易,监管和安全。
开放获取(Open Access) (4),开放数据(Open Data)(5)和开放标准(Open Standards)(6)是快速扩展并促进更快和更有效的研究发现的领域。 协作,可互操作和全球传播标准在更加互联的世界中至关重要。 确保化学数据得到充分注释以允许计算机辅助处理。使用和再利用的需要对于科学研究的进步至关重要。
这种新标准的推出使各种应用成为可能,例如:
- 通过基于文本的搜索引擎查找化学品/专利/一般文献中的化合物
- 数据库之间的联系
- 合并使用不同系统/协议开发的数据集合
- 从供应商处订购化学品,维护化学品库存或任何广泛的本地化学品采集
- 检测由于同一结构的不同绘图样式而导致的集合中的重复项,将物质的标识传递给同事以用于上述任何一种
正如Wendy Warr所写(7)这样的活动和用途几乎每天都在进行,文献中的数百篇科学论文报告了使用InChI来合并数据库。ChemSpider项目的创建者Tony Williams这样写道(8):
“毫无疑问,如果没有InChI作为一种技术支持,作为化学家在线的主要社区资源之一的ChemSpider不可能以这样的速度发展,那么它在互联网上与化学连接的能力将会大大减少,并且不能维护其功能“。
使用InChI验证和匹配化合物集合的能力证明在管理大型公共数据库(如ChemSpider和PubChem)以及专有数据库(如Reaxys和SciFinder)中的数百万种化学品方面是成功的。 对于组织内部的大量化学数据集合,例如化学品库存,也可以实现,对化学品库存具有潜在的成本节约影响以及支持报告要求。 在化学记录和支持文件中使用InChI可能有助于生成报告,将列出化学名称的报告与下游从研究到废物处理关键信息联系起来。
库存记录中化学品识别的准确性对于安全通信和规划至关重要。 正如Leah McEwen和Ralph Stuart所述(9,10),最近在化学实验室和教室中发生的极具破坏性的事件导致人们越来越关注研究组织的化学风险评估。 而评估和管理风险的相关数据分散在许多机构和行业资源,国家和国际中以及其有许多不同的格式。 报告要求因行业和地区而异,并导致交换和评估数据的困难。 在公布的信息中识别化学品的各种方案并不总是可以解决的,混合物质通常仅由主要成分编制索引。 InChI将支持内部记录与不同的外部信息源的匹配和整理,例如危险分类,标准操作程序和紧急响应指南。
许多贸易商品以定义或部分定义的混合物形式存在,从简单的解决方案到消费品配方。 在实践中,所有化学品都含有一定程度的杂质和组成,有意或无意地影响化学反应。 溶剂可能比溶质具有更大的危害,并且有关组成的信息传递对于进行安全,有效和具有科学意义的化学和其他实验室功能至关重要。 大多数化学索引在描述混合物方面做得很差,但是正在进行一项使用InChI识别多个组分的项目。 “MINChI”将提供可分析的成分数据,可用于追踪不相容的溶剂或可能破坏化学合成的已知杂质,改善储存和废物管理,帮助标明容器或反应方案中的潜在危害,并支持组成特性分析(11)。
InChI是数据库中其他化合物标识符(例如,系统和普通名称,注册号和SMILES(12)的各种版本)的有价值的补充,并且它并不是想要,也不应该替代已经存在的任何标识符。随着ISO医药产品鉴定(IDMP)和相关的ISO 11238标准的实施,添加InChI将允许更容易,有效和更完整地搜索特定化学品的信息,无论是药物,还是污染物,或用于其他商业和/或非商业用途的化学品。
InChI(和InChIKey - 见后文)对IUPAC以及一般化学和科学界的价值和益处反映在许多组织的支持和使用上,其中一些组织在财务上支持InChI Trust项目,以及InChI算法。 这些支持者包括the National Institutes of Health – National Library of Medicine (NIH/NLM), US Food and Drug Administration, National Institute of Standards and Technology, Royal Society of Chemistry, American Chemical Society-Chemical Abstract Service, MilliporeSigma, Elsevier RELX, Wiley, Springer Nature, Taylor & Francis, Bio-Rad, OpenEye, and ChemAxon.
3.InChI是如何诞生的?(How was InChI born?)
IUPAC在本世纪初开始了由Ted Becker(当时的IUPAC秘书长)领导的重大改组。 他和Alan McNaught认识到需要采用新的化学命名方法,于是2000年3月在美国国家科学院组织了一系列参与提供和使用化学信息的化学家来研究这个问题。 对计算机化等效的IUPAC名称(即标准化学标识符表示为字符串)的需求很快得到了认可,并且经过当年的一些探索性研究,认识到美国政府标准组织NIST需要这样的标示来作为内部工作的工具,该项目就这样开始了。 因此,InChI项目(InChI project)(13)在两个著名的权威机构 - IUPAC和NIST(14)的支持下开始建立标准。
该项目的目标是双重的。 第一个是在IUPAC的支持下,在世界各地的化学家的合作下建立了一个全球公认的结构表示标准。 第二种是使用这种独特的表示,一种独特的字符串,链接互联网上可用的许多信息。 作为第二个目标的一部分,明确指出化学结构的InChI字符串不是任何现有系统的替代品[如SMILES或CAS(15)],而是任何计算机记录的补充。
这种方法最初是由Nmitri的Tmitkhovskoi,Steve Stein和Steve Heller开发的,它是用不同的信息层(连通性,立体化学,同位素和互变异构体)来表达化学结构。这种努力的结果是创造了 国际化学标识符 - InChI。在最终表示中,唯一的连接层是必不可少的,但用户可以选择保留哪些其他层。维基百科上有一个有用的概述(16)。其他详细信息可在科学文献中找到(17-21)。
InChI算法通过三步过程将输入结构信息转换为标识符:正常化(normalization,删除冗余信息),规范化(canonicalization,生成一组唯一的原子标签)和序列化(serialization,提供一串字符)。 该过程为每个化合物生成不同的标识符,但无论结构如何输入,始终为特定化合物提供相同的标识符。 当然,该方法同样适用于已知的和尚未知的化合物。
随着项目的发展,化学家对于哪些结构信息应该纳入达不成统一。 因此,创建了专为互操作性而设计的“标准InChI”。 该标准InChI不允许用户选择如何处理互变异构,立体化学和与金属的键合,从而允许在InChI之间和散列的InChI之间进行更容易的比较 - 本文后面将介绍InChIKeys。 “非标准”InChI的更广泛但可变的选项集仍然为特定用例提供了附加功能。
InChI算法的初始版本于2009年发布。根据用户的使用和反馈,我们得出结论,这个初始版本几乎可以处理科学家每天使用的所有化学品。 正在进行其他工作以改进对互变异构体,有机金属化合物和无机物的处理,并处理生物聚合物,位置异构体和化学混合物。 最新版本,2017年(version 1.05)(22),增加了实验聚合物支持和多线程安全性,以及其他新功能。 第一版RInChI(22),InChI for reactions,于2017年发布。RInChI以独特的方式组织参与化学反应的InChIs,为反应物,产品,试剂(催化剂,溶剂等),反应的方向提供一层信息 。 这使得RInChI成为一种精确,稳健,结构衍生的化学反应标签。 对InChIs使用QR码同样可以更广泛地用于容器标签。
4.什么是可搜索的InChIKey?(What is a Googleable InChIKey?)
当InChI算法创建一个与分子大小相对应的字符串时,这些字符串可能会变得非常长。在Google、Bing、Yahoo或类似的搜索引擎中输入水螅毒素这样的长字符串是一个问题,因为搜索引擎有自己独特的方法来接受长输入、删除字符和限制搜索查询的长度。此外,这些搜索引擎在处理一些非字母符号(可能出现在InChI字符串中)时可能会遇到困难。因此急需压缩或散列版本的InChI字符串(并用最少的一组字符表示)。为了简化数据库中的化学结构索引,并使化学结构易于阅读和在互联网上搜索,广泛使用的SHA-256算法(23)被用来创建一个散列版本的字符串,将其减少到更易于管理的27个字符。
InChIKey只是完整InChI字符串的压缩表示,包含27个字符,按如下方式分解。前14个字符编码核心分子骨架(方程、连通性、氢位置和电荷)。连字符之后是第二个10个字符的字符串,前8个字符编码补充核心数据的特征(立体化学、互变异构、同位素替换和金属连接)。剩下的两个字符表示原始InChI是否为标准InChI以及InChI软件的版本号。InChIKey的最后一个字符是指示(去)质子化状态的字符。
“虽然可以使用InChI字符串和InChIKey(IK)查询化学数据库,但后者是为开放式网络搜索而设计的。 它变得越来越有效,因为更多来源增强了Googlebot对其网站的抓取以及随之而来的IK索引。 使用Google作为数据库访问辅助工具的搜索者可能不太熟悉使用IK的优势,如本评论中所探讨的那样。 例如,阿托伐他汀(Lipitor)的IK在0.3秒内从Google搜索中检索出约200个低冗余链接。 这些包括大多数主要数据库和非常低的误报率。 因此,InChIKey索引通过合并链接到最重要的来源,包括超过5000万的PubChem和ChemSpider记录,使谷歌成为事实上的开放式全球化学信息中心。
正如Kutchukian和他的同事所提到的(25)
“利用各种数据库并将其与内部化学基因组数据相结合的挑战之一是协调标识符。 例如,可以在每个数据库中使用不同的化学标识符来表示相同的化学实体。 此外,即使在内部数据库中,也可能存在与同一化合物相对应的多个标识符。 解决这一挑战的一种方法是将化合物表示为脱盐的InChIKeys,并将生物活性与InChIKey联系起来,而不是某些任意的登记号码。”
因此,InChI和InChIKey的结合为化学信息学提供了一个重要的进展。
5.如何生成InChI或InChIKey?(How can I generate an InChI or an InChIKey?)
InChI可以直接从InChI软件(InChI Trust提供)生成,也可以使用任何通用的化学绘图或化学信息学包生成。
下载最新版本的InChI软件
此外,两个网站亦提供网上生成InChIs的服务:
- NCI Chemical Identifier Resolver该服务作为不同化学结构标识符的解析器,并允许将给定的结构标识符转换为另一种表示形式或结构标识符。
- PubChem Server Side Structure Editor v 1.8包括在绘制结构时生成InChI的工具。
6.InChIs如何设计和创建?(How are InChIs Designed and Constructed?)
由于化学家通常不了解结构的完整细节,InChI的设计考虑到了这一点,并允许根据人们对结构细节的了解程度来创建InChI。这种分层结构设计具有许多优点。如果在不同的细节层次上绘制同一物质的两个结构,那么具有较低细节水平的结构实际上将包含在另一个内。具体而言,如果一种物质用立体键绘制而另一种物质没有,则后者中的层将是前者的子集。对于由一位作者处理的化合物作为互变异构体而另一种作为具有所有H原子固定的精确结构的化合物也是如此。在许多情况下,这可以在更好的水平上工作。例如,如果一个作者包括双键和四面体立体化学,但另一个完全省略后者,后者InChI将包含在前者中(可能的例外,如果四面体中心影响双键立体,则可能出现)。
InChI层状设计考虑了分子结构
- 公式(标准Hill命令);
- 连通性(没有正式的结合方式,而是指示氢位置); 如果分子中含有金属,则可以分别表示金属断开形式的分子和连接金属(原始)版本的连接性;
- 电荷和质子化作用/去质子化;
- a)双键(Z/E)和b)四面体(sp3)立体化学;
- 同位素富集;
- 互变异构(开或关)
此外,InChI的设计考虑了与金属连接细节有关的问题(可能完全省略或特别处理)。
此列表不遵循严格确定的InChI层的确切顺序,有时可能看起来非常错综复杂。 例如,InChI可能包含两个用于同位素富集分子的立体化学层 - 第一个描述“无同位素”立体声,第二个描述由于同位素取代而产生的立体构型的变化。 然而,重要的是要认识到InChI字符串旨在供计算机使用,最终用户无需了解任何细节(尽管它们当然已记录在案)。 事实上,在实施到软件系统之后,InChI的开放性及其表示的灵活性可能使化学家更少关注计算机结构表示的细节。
InChI/key生成的一般流程
InChI和InChIKey的咖啡因 请注意,同一化合物的不同质子化状态将具有标准InChIKeys,其仅由单个字符,质子化标志不同(除非两个状态具有插入/移除的质子数> 12)。 此外,由于同一分子的中性和两性离子状态确实具有相同的零数量的插入/去除质子,它们将具有相同的标准InChIKeys。 尽管如此,从非标准InChI(包括FixedH子层)生成的非标准InChIKeys将允许人们区分状态。 对于L-赖氨酸的各种电离状态,InChIKeys举例说明了这一点。 L-赖氨酸的各种电离态的标准(每个图下面的上面一行)和FixedH(下面的线)InChIKeys
参考文献
- InChI Trust - https://www.inchi-trust.org
- IUPAC Color Books - https://iupac.org/what-we-do/books/color-books
- PubChem - https://pubchem.ncbi.nlm.nih.gov/
- Open Access - https://en.wikipedia.org/wiki/Open_access
- Open Data - https://en.wikipedia.org/wiki/Open_data
- Open Standards - https://en.wikipedia.org/wiki/Open_standard
- Warr, W. A. Many InChIs and quite some feat”, J. Comput.‑Aided Mol. Des. 2015, 29(8), 681‑694 - https://doi.org/10.1007/s1082
- ChemSpider - https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3537679/
- Meeting the Google Expectation for Chemical Safety Information: Chemical Risk Assessment in Academic Research and Teaching. Leah McEwen, Ralph Stuart, Chemistry International Volume 37, Issue 5-6 (Sep 2015). DOI: - https://doi.org/10.1515/ci-2015-0505
- Chemical Health and Safety Data Management: Supporting Prudent Practices in Research Laboratories Leah McEwen, Chemistry International Volume 39, Issue 3 (July 2017). DOI: - https://doi.org/10.1515/ci-2017-0308
- InChI Extension for Mixture Composition. IUPAC Project No. 2015-025-4-800; Task group chair: Leah McEwen. - https://iupac.org/project/2000‑025‑1‑800
- SMILES - https://en.wikipedia.org/wiki/Simplified_molecular-input_line-entry_system
- International Chemical Identifier. IUPAC Project No. 2000-025-1-800; Task group chair: Alan McNaught. - https://iupac.org/project/2000-025-1-800
- NIST - https://chemdata.nist.gov
- CAS - https://en.wikipedia.org/wiki/CAS_Registry_Number
- International Chemical Identifier Wikipedia Page - https://en.wikipedia.org/wiki/International_Chemical_Identifier
- Heller, S. & McNaught, A. The status of the InChI project and the InChI trust. J Cheminform (2010) 2(Suppl 1): P2. - https://doi.org/10.1186/1758-2946-2-S1-P2
- Bachrach, S.M. InChI: a user’s perspective. J. Cheminform (2012) 4:34. doi: - https://doi.org/10.1186%2F1758-2946-4-34
- Pletnev, I., Erin, A., Blinov, K., Tchekhowskoi, D., Heller, S. InChIKey collision resistance: an experimental testing. J. Cheminform (2012) 4:39. doi: - https://doi.org/10.1186%2F1758-2946-4-39
- Grethe, G., Goodman, J., Allen, C. H. G. International chemical identifier for reactions (RInChI). J. Cheminform (2013) 5:45 - https://doi.org/10.1186/1758-2946-5-45
- Heller, S. R., McNaught, A., Pletnev, I., Stein, S., Tchekhovskoi, D. InChI, the IUPAC International Chemical Identifier. J. Cheminoform (2015) 7:23. - https://doi.org/10.1186/s13321-015-0068-4
- InChI downloads - https://www.inchi-trust.org/downloads/
- SHA-2 (Secure Hash Algorithm 2) Wikipedia Page - https://en.wikipedia.org/wiki/SHA-2
- Southan, C. InChI in the Wild: an Assessment of InChIKey Searching in Google. J. Cheminform, 2013, 5 (10) - https://www.jcheminf.com/content/5/1/10
- PS Kutchukian, C Chang, SJ Fox, E Cook, R Barnard et al. CHEMGENIE: integration of chemogenomics data for applications in chemical biology. Drug Discovery Today, 2017 - https://doi.org/10.1016/j.drudis.2017.09.004
引用格式
Boucher, R., Heller, S., Kidd, R., McNaught, A., Pletnev, I. (1 Feb 2018) "What on the Earth is InChI?" IUPAC 100 Stories. Retrieved from https://iupac.org/100/stories/what-on-earth-is-inchi/. (Accessed: day month year)
网友评论