OPLS-DA:正交篇最小二乘法判别分析
原理:
图1OPLS-DA不同于PCA,它是一种有监督的判别分析统计方法。运用偏最小二乘回归建立代谢物表达量与样本类别之间的关系模型,来实现对样本类别的预测
OPLS-DA需要样本变量矩阵和样本分类矩阵两个文件确立样本关系,如下所示:
结果图1:OPLS-DA得分图:
图2横坐标表示OSC过程中的主要成分的得分值( Tp ) , 所以从横坐标的方向可以看到组间的差异;
纵坐标表示OSC过程中的正交成分的得分值(TO) ,所以从纵坐标上看出组内的差异(组内样本间的差异)。
结果图2:OPLS-DA的S-plot图
图3S-plot 图的横坐标表示主成份与代谢物的协相关系数,纵坐标表示主成份与代谢物的相关系数。
S-plot 图一般用来挑选与OSC过程中主要成分的相关性比较强的代谢物,从另一方面同时也可以挑选与Y相关性强的代谢物。越靠近两个角的代谢物重要度越强。红色的点表明这些代谢物的VIP值大于等于1 , 绿色的点表示这些代谢物的VIP值小于等于1。
结果图3:OPLS-DA的模型验证 permutation Test图
图4模型验证 permutation Test 图的横坐标表示模型的准确率,纵坐标表示200次 permutation Test 中200个模型的准确率的频数,箭头表示本OPLS-DA模型准确率所在的位置。
其中R2X和R2Y分别表示所建模型对X和Y矩阵的解释率, Q2表示模型的预测能力,理论上R2、Q2数值越接近1说明模型越好,越低说明模型的拟合准确性越差。
通常情况下 , R2、Q2高于0.5较好,高于0.4即可接受。
从图中可以看出Q2为0.994 , R2Y为1 , R2X为0.685 , Q2和R2Y的P值均为0.005 ,说明 permutation Test 中只有1个随机分组模型结果优于本OPLS-DA模型,一般情况下P<0.05时模型最佳。
网友评论