代谢组学旨在通过高通量技术(如核磁共振和色谱/质谱)鉴定和量化生物相关样品中的所有小分子代谢物。这将生成具有属性的高维数据集,这些属性需要专门的数据分析方法。本文从代谢组数据集中提取有意义信息的多元统计和分析工具。重点是潜在变量方法的使用和解释,如主成分分析(PCA)、偏最小二乘/潜在结构投影(PLS)和正交PLS(OPLS)。通过实例数据说明了多元数据分析的关键步骤。
主要内容:
1. 代谢组学中多元统计概述;
2. 分析使用的原材料;
3. 数据分析的方法;
4. 注意事项。
1. 代谢组学中多元统计概述
1.1 代谢组学数据与多元统计的关系
在代谢组学研究主要目的:捕获和量化生物相关样品中的所有小分子代谢物,如细胞、组织、生物膜、器官或整个生物体。
用于高通量测量代谢物的主要分析方法:基于高分辨率1H NMR或色谱与质谱联用(GC/MS或LC/MS)。
这些仪器分析方法产生的数据结构是高维的,通常比样品具有更多的特征(假定的代谢物),并且可能具有很强的内部相关性结构。这些特性使得这些数据集非常适合用于多元统计,多元统计作为分析工具是为分析和解释具有类似特征的数据而开发的。
1.2 代谢组学中的多元统计方法概述
虽然文献资料中提及大量的多元统计分析工具,但代谢组数据最常用的方法是基于潜在变量。
这些工具旨在提取数据底层非冗余结构,这些结构可以以简单的方式解释和形成可视化。
主成分分析(PCA)是一种无需任何先验知识即可提取数据集中主要变异源的通用方法。主成分分析法适用于识别集合中的外围样本,以及研究样本簇或样本组,以期随后将其归因于潜在的生物因素或技术因素。
当样本背景信息可用时,如治疗前后、基因型不同或不同组织类型,监督方法可用于以有针对性的方式识别代谢物。
常见方法包括:判别分析法(DA),用于两类(Classes)的比较,如药物治疗组和对照组,其主要目的是确定这两类之间丰度不同的代谢物。对于潜在结构解析采用偏最小二乘/投影(PLS)和正交PLS(OPLS)是两种已成功应用的多变量分析方法,在生物相关标记的可视化和识别方面具有许多有利特性。
2. 分析使用的原材料
2.1 可以参与分析的“材料”
一种经过预处理和质量检查的数据矩阵,具有N个样本和K个特征(假定的代谢物),特征可以是:色谱图中的解析峰或1H NMR的化学位移。矩阵中的每个元素都包含给定样本中相对丰度特征的数值估计。
【可选】每个特征的代谢物鉴定,以便于下游结果的解释。
执行分析所需的软件,例如安装R,软件包可实现包含PCA、PLS和OPLS等的分析。
3. 数据分析的方法
3.1 利用主成分分析(PCA)进行探索性分析
1. 模型选择
PCA模型是由表示数据集中系统信息所需的主成分(PCs)的个数决定的(参数化)。计算一系列主成分进行汇总度量,如Q2,以说明模型复杂性(主成分数量)与捕获的一般结构(Q2)之间的依赖程度。
根据Q2峰值或平坦的情况选择主成分的编号,不要包含超过所需的主成分(PC),因为这会增加将噪音纳入模型的风险。
PCA Q2示意图2. 可视化
①在PCA模型中,样本之间的关系被捕获在一组得分(score)向量中(每得分向量表示一个主成分),相应的特征信息(假定的代谢物)存储在一组载荷(loading)向量中。使用得分向量将样本空间中的趋势可视化为二维散点图。简单地说,得分图中相近的样本具有相似的属性。从前两个主成分开始,它们表示数据集中影响效果最强的成分,并通过不同的组合发生作用。
②通过使用颜色或形状将数据中的任何组或类群(Class)归因于已知因素(详见图)。
③对不能被任何已知因素进行解释的不同样本组进行检查,因为有可能是通过技术或过程处理(批处理效应),导致的不必要的影响。
④识别任何看起来与同类群相距甚远的样本,这些样本可能是潜在的异常值。
PCA Score示意图图注:数据中观察到的簇与不同的组织类型有关。在第一个成分(水平方向)中,骨骼和心脏组织与大脑、肝脏和血浆分开聚集,在第二个成分(垂直方向)中,肝脏和骨骼组织与其余组织分开。
3. 解释说明
样本空间中的簇是由特征(代谢物)空间的差异驱动的。使用相应的载荷向量将特征信息可视化为二维散点图(如图)。
识别在载荷图中处于极端点上的特征(代谢物),这些特征对得分图中的聚类影响最大。
示意图右图中,突出显示的特征驱动左图中骨骼、组织和心脏与大脑、肝脏和血浆的水平分离。
3.2 PLS-DA监督分析
1. 模型选择
与PCA模型相似,PLS模型由表示数据集中系统信息所需的潜在变量(LVs)的数量决定。然而,与PCA模型不同,PLS模型使用响应信息来指导潜在变量的提取。响应信息可以是一个连续变量(回归),但更常见的是描述不同的类群(PLS-DA)。首先,确定用于模型评估的适当交叉验证度量标准,如连续响应中的Q2或类群性实验的分类准确度。
计算一系列LVs的汇总指标,以说明模型复杂性(主分数量)与捕获的一般结构之间的依赖程度。
根据LVs汇总指标的峰值或平坦程度选择主成分的编号(如图)。不要包含超过所需的成分,因为这会增加将噪音纳入模型的风险。这对于偏最小二乘法比主成分分析法更为重要,因为偏最小二乘法模型能力的增强可能导致过度拟合,除非使用谨慎的模型选择。
如果汇总指标类似于偶然的预期,如Q2接近0或一个类群和现行主流类群表现的很相似,则不要继续进行分析。这表明代谢产物数据中没有解释系统结构响应信息,任何进一步的可视化或解释都可能产生误导。如果汇总指标指示在适当级别上的预测性能,则继续对模型进行可视化和解释。
PLS-DA 模型选择示意图2. 可视化
与PCA模型相似,PLS模型分别具有表示样本和特征信息的得分向量和载荷向量。使用得分向量将样本空间中的样本可视化为二维散点图。
识别描述分离的得分向量,这是必要的,因为PLS模型不一定唯一地识别出一个得分成分且能反映出数据中存在多个组时的响应变量。
PLS-DA Score示意图图注:示例中大脑与其他组织的成分2上出现分离。
3.解释说明
样本空间中的簇是由特征(代谢物)空间的差异驱动的。将特征信息可视化为二维散点图,使用与先前识别的得分向量相匹配的相应载荷向量。
确定载荷图中与得分图中的组群分离与得分图中的区域相同。
如果代谢物鉴定是可行的,则使用富集分析评估所识别的特征(代谢物)是否具有共同的功能作用,例如它们是否是共享代谢途径的一部分。
示意图图注: 载荷图中突出显示的特征与脑组织与剩余组织类型的分离呈正相关。
3.3 OPLS-DA的监督分析
1.模型选择
与PCA和PLS模型相似,OPLS模型是由表示数据集中系统信息所需的潜在变量(LVs)的数量决定的。PLS模型与OPLS模型的区别在于,在OPLS模型中将变异分为预测成分和正交成分。正交成分描述系统变化与响应无关的,预测分量与响应纯相关,从而简化了解释说明。模型选择遵循前面描述的PLS模型中正交分量数量的相应步骤。
OPLS-DA模型选择示意图2. 可视化
使用预测得分向量对正交得分分量,将样本空间中的样本可视化为二维散点图。
OPLS-DA Score示意图图注:预测成分描述了大脑与其他组织的分离,并且正交成分捕获了剩余组织之间的差异。
3. 解释说明
样本空间中的簇是由特征(代谢物)空间的差异驱动的。使用前面确定的相应载荷向量将特征信息可视化为二维散点图。
识别载荷图特征与得分图中组别分离相同的区域。这些代谢物与PLS结果重叠,这是预期的。然而,OPLS结果更容易从预测载荷向量中获得,这可以简化相关特征的识别。
如果有代谢物鉴定可行,则使用富集分析评估所识别的特征(代谢物)是否具有共同的功能作用,例如它们是否是共享代谢途径的一部分。
示意图图注:载荷图中突出显示的特征,与脑组织和剩余组织类型的分离呈正相关。
4. 注意事项
4.1 数据与转换
与代谢组学一样,多元统计模型中输入数据是在同一尺度上测量的,通常是以平均为中心的,对每一个特征不会进行任何转换。
在分析不同规模的数据以及合并和整合来自不同来源的数据时,转换变得至关重要。
4.2 Q2的计算
Q2参数的计算使用了一个称为交叉验证(crossvalidation)的概念,其中一部分数据被排除在模型生成之外,然后进行预测。这有助于确定模型是描述结构变化还是仅仅描述背景噪音。文献资料中存在许多选择主成分数量的替代方法,例如:scree图(elbow图),它使用特征值规模的缩小来识别适当数量的成分。
4.3 假设检验的应用
将得分向量与生物或技术背景因素联系起来,也可以使用假设检验的方法进行探讨,例如,方差分析或单变量相关的方法。
4.4 特征选择
多元统计中最重要特征(变量选择)的选择本身就是一个领域,特别是对于有监督的方法。为此,基因算法经常与PLS结合使用。
4.5 过渡拟合
当应用有监督的多元模型,如PLS或OPLS时,过度拟合是一个非常严重的问题。当一个过于复杂的模型被拟合到数据中,并包含了数据集特有的属性或噪音,而这些属性或噪音并没有囊括到未来的数据集时,就会发生这种情况。正确应用抽样方法,如交叉验证或自举,已成功地将数据过度拟合的风险降至最低。
网友评论