原文出处:LCGC
原文标题:A New Era for Big Data and Chromatography
原文作者:Gabriel Vivó-Truyols
原文链接:http://www.chromatographyonline.com/new-era-big-data-and-chromatography
我们已经进入到这个加速时代的一个新阶段。摩尔定律继续延续,以指数的方式提高着可以实现的计算能力。其它方面的加速也十分明显,尤其在云计算的便捷接入以及人工智能对我们这个社会几乎所有行业的扩展和影响方面。
那么,色谱呢?摩尔定律也适用于这门学科吗?我的回答是肯定的。考虑一下色谱仪器产生的数据与所需时间的关系,我们可以清晰地看到一个指数性的增长趋势。我们从60年代在气相色谱图上产生几K个字节,变成了现在在高分辨色质联用上产生几G个字节的数据。质谱,尤其是高分辨质谱的出现,是色谱大数据一个显而易见的贡献者。此外,复杂的联用仪器(比如全二维色谱系统)以及二阶检测器(比如离子淌度质谱仪)对色谱数据量的增长也有所贡献。
化学计量学和色谱
在60年代末和70年代,统计学和分析化学之间的交叉领域开始得到推动,在分析化学中孕育出来一个新的学科:化学计量学。当时,欧洲的Massart教授和美国的Kowalski教授(仅作为众多先驱者的代表)十分具有远见,他们的贡献使得化学计量学在80年代和90年代成为了一门成熟的学科。
多元(多变量)统计的应用发展出了化学计量学中大多数的技术(但不是全部),这一发展思路是和“多元”仪器的开发同步进行的。偏最小二乘法(PLS)用来提取近红外光谱中感兴趣的模型特征,是诸多应用实例中被引用得最多的一个。近红外光谱中的倍频效应使得提取单一波长用于描述感兴趣的特征成为不可能,而将所有的波长一起考虑(即多元信息)则能够帮助我们建立起针对这种感兴趣特征的模型。
在色谱方面,化学计量学已经成功地解决了很多问题,但它并没有像其他学科那样广受欢迎。这里主要有两个原因。首先,化学计量学被看成为一种辅助的(并不是基本的)技术。在色谱中,我们希望通过提供足够的柱分辨率来分离色谱峰。使用多元解析技术从数学上分离那些色谱柱不能分离的组分,只是被当作是一种“最后一根救命稻草”般的选择。其次,光谱仪器相比于色谱来说具有更高的可重复性,后者往往受到色谱柱老化,泵的不稳定性以及进样等方面的影响。这些不稳定因素特别地影响到色谱,阻碍了多元技术在色谱中的应用,并且使得色谱峰对齐技术成为必要。
尽管如此,色谱和化学计量学的一些重要的交叉领域还是得到了发展。例如,在色谱峰解析中,使用峰模型在数学上分离重叠组分峰仍然是常用的选择,2001年的一篇综述文章发表了一个列出了超过100种色谱峰模型的表格。另一方面,当色谱峰不完全分离、且多通道检测(具有多变量)可用时,色谱峰则不必遵循数学模型就可以通过“软”的峰分辨技术得到分离。其它的领域中化学计量学也有不少重要的进展。在保留预测中,所谓的“亚伯拉罕模型”被用来估计分子的保留时间,这种估计仅仅使用了分子描述符而无需任何实验室工作。此外,色谱方法优化的方法现在也被色谱界所广泛接受。
大(色谱)数据和人工智能
尽管分离科学中的数据处理方法得到了长足的发展,但从(原始的)色谱数据中能够获得的潜在信息和实际上获得的信息之间还存在着较大的差距。随着摩尔定律适用于分离科学,这种差距正变得越来越大。造成这种现象的原因有以下几个。
首先,随着数据指数级地增长,对自动化的需求变得越来越大。在80年代和90年代,对自动化的需求并不像现在这么高。人们可以处理具有多个色谱峰的色谱图,人工监督主要用来应用峰解析技术,比如多元曲线分辨-交替最小二乘法(MCR-ALS)。现在,面对仪器生成的上千或者上万个色谱峰(以及高分辨质谱数据),像以前那样要求人工干预是不可行的。因此,自动化成为了必须。
其次,我们需要通过理解和管理信息的概念来重构我们的知识,这主要来自于基本的统计定义:概率。为了能够理解这一点,我们必须修正18世纪末这些伟大数学家们的理论。对于贝叶斯、伯努利和拉普拉斯来说,概率代表着一种置信程度:他们在多大程度上相信某个事件是真实的。如果我们将“信息”视为一种概率分布(或者连续,或者离散),我们就能够以一种巧妙的方式用手头上的数据来管理和更新这些信息(即概率)。例如,假设我们想知道血样中是否存在一种有毒化合物,我们可以考虑使用液质联用的方法,在一定的保留时间和一定的质荷比(m/z)上寻找某个峰。取决于这个m/z值附近的峰高,我们的答案最终将是“化合物存在”或者“化合物不存在”。然而,如果我们使用前面所述的贝叶斯概念,这个信息就可以变成“化合物存在的概率是x%”。这改变了一切!因为这样的话,我们就可以根据手头上的新数据或者证据来更新这个概率。假设我们有在此m/z通道上可能出现的异构体数量的信息,如果该分子是常见的(其它许多分子也可能出现在此m/z上),那么这个特定m/z峰的信息就不是那么高,从而减小了该化合物存在的概率。假设我们添加诸如同位素、离子加合物、保留时间和其它的实验信息,因为我们没有一个确定的“化合物存在”的答案,我们只有一个存在的概率,我们就可以根据新的数据不断更新这些概率。随着数据呈指数级的增长,更新概率成为主要的问题,而这里的概率,即我们想要推断的变量的信息。
贝叶斯统计正经历着一场革命,它在我们社会中的许多学科中得到应用。大数据(从自动驾驶汽车到网络搜索)涉及贝叶斯统计以管理(和更新)信息,并自动作出决策。贝叶斯统计的概念深深植根于人工智能之中。道理很简单:在贝叶斯的时代,我们没有计算机可以用来解贝叶斯定理中的复杂方程,并且可用的信息也十分有限。在互联网时代,现在我们既有海量的信息又有消化这些信息的计算能力。此外,通过将信息视为概率分布,模型可以轻易地被新的可用的信息所更新。
我期待一场在色谱领域使用人工智能的革命。我们需要消化大量的数据,需要对其进行分类和排序,需要以高效的方式将它们展现给色谱专家。但是,这同样需要我们重新教育自己如何定义信息的概念。
译者评论:
化学计量学和色谱的结合面是非常广的,除了作者提到的曲线拟合、峰解析、保留时间预测等,化学计量学和统计学还被广泛地应用于实验设计(DoE),色谱柱的表征和分类,非目标化合物分析和样品的聚类分析,寻找与生物活性或者疾病有关的标记物,色谱方法优化,全二维色谱数据的对齐和方法优化,结构与化学活性/毒性的定量关系,天然化合物的指纹图谱等等。
随着色谱柱和多维色谱分离的发展,完全重叠的色谱峰出现的概率还是非常小的,此外,色谱柱老化和溶剂/流动相的不匹配常常会对峰形产生不利影响(拖尾或者前凸),因此色谱峰的数学模型对于峰解析而已并不是十分重要。多维分离,加上多通道检测,基本上可以保证每一对组分至少可以实现部分分离,部分分离的峰再通过多元解析技术,即可以得到重叠峰的数学解析。
将贝叶斯和概率的概念引入色谱是个很有意思的提法,不过在实际应用,尤其是在医药行业的应用中,恐怕还需要更多的考量。比如现在分析方法中常用的检出限和定量限,都是以一种阈值的概念来定义目标化合物的存在与否和可否定量;如果使用概率的概念,是否也需要重新定义检出限和定量限?比如,目标化合物出现概率为50%的时候为检出限?又比如,信噪比是否也需要重新定义?信噪比10:1等同于目标化合物出现的概率为90%?这些问题都非常有意思。
在我看来,化学计量学在医药行业色谱方法开发方面的应用,更有价值的应用可能存在于:计算机辅助色谱方法开发,色谱方法鲁棒性评估和关键变量筛选,色谱方法转移的数据统计,历史色谱图的数据压缩和信息提取,多模式色谱保留行为的建模和预测,多维色谱的建模和方法优化等等。
参考出处:
题图来源:http://www.hplc2017-prague.org/scientific-sessions.htm
文/Athlon_BE
2018.12.26
网友评论