判别分析(DA)是一种根据观察或测量到的若干变量值,来判断研究对象如何分类的常用统计分析方法。
偏最小二乘回归(PlS)与主成分回归相关,但不是寻找响应变量和自变量之间最大方差超平面,而是通过投影分别将预测变量和观测变量投影到一个新空间,来寻找一个线性回归模型。
偏最小二乘判别分析(PLS-DA)是一种用于判别分析的多变量统计分析方法,经常用来处理分类和判别问题。
Question1:什么是PLS-DA?
数据X和Y都会投影到新空间,PLS系列的方法都被称为双线性因子模型(bilinear fator models),当Y是分类数据时称为偏最小二乘判别分析( PLS-DA)。
与PCA不同,PCA是无监督,PLS是“有监督”模式的偏最小二乘法分析,当样本组间差异大而组内差异小时,无监督分析方法可以很好的区分组间差异。反之样本组间差异不大,无监督的方法就难以区分组间差异。另外如果组间的差异较小,各组的样本量相差较大,样本量大的那组将会主导模型。有监督的分析(PLS-DA)能够很好的解决这些问题。也就是在分析数据时,已知样本的分组关系,这样可以更好的选择区分各组的特征变量,确定样本之间的关系。DA是判别分析,PLS-DA用偏最小二乘回归的方法,在对数据“降维”的同时,建立了回归模型,并对回归结果进行判别分析。
Question2:什么是OPLS-DA?
PLS是偏最小二乘分析,DA是判别分析,再加一个o就是加了一个正交,OPLS-DA就是正交偏最小二乘法判别分析。
——当变量数量远大于样品数量时(行数小于列数), PLS或 PLS-DA模型容易过拟合(泛化能力不强),但是PCA效果也不好。但是加入正交矫正之后数据检出假阳性会降低,会更准确。OPLS是一种多因变量对多自变量的回归建模方法,其最大的特点是可以去除自变量X中与分类变量Y无关的数据变异,使分类信息主要集中在一个主成分中,从而模型变的简单和易于解释,其判别效果和主成分得分图的可视化效果更加明显。
OPLS-DA在代谢组学分析中应用较多,利用偏最小二乘回归建立代谢物表达量与样本类别之间的关系模型,同时还可以有效分离样本,预测样品类别。PLS-DA/OPLS-DA建立了代谢物表达量与分组关系之间的模型,更好地获取组间差异信息,还可以对样品的分组进行预测,这是PCA做不到的。
不同分组样品的代谢物检测进行PLS-DA显示组间分类差异大
网友评论