美文网首页SPSSAU数据分析入门教学
PLS回归应用案例(Partial least squares

PLS回归应用案例(Partial least squares

作者: spssau | 来源:发表于2019-08-09 12:10 被阅读1次

    在进行回归分析时,通常都是考察多个X对Y的影响,但有时复杂的研究也会涉及研究多个X对多个Y的影响,尤其是数据存在当自变量存在多重共线性问题时,普通的多元线性回归无法很好的解决问题。PLS回归则能很好的解决这些问题。

    应用场景

    PLS回归(Partial least squares regression,偏最小二乘法回归),是一种研究影响关系的多元统计方法。

    主要用于解决共线性问题、分析多个自变量对多个因变量Y的影响关系、以及处理小样本。

    案例应用

    (1)背景

    本案例研究身体特征指标(共3个X,分别是体重X1、腰围X2和脉博X3)对于训练指标(共3个Y,分别是单杠Y1、弯曲Y2和跳高Y3)的影响关系,样本数据为20个。由于数据样本量非常小(20个),并且因变量为3个无法概括成一个,并且3个X之有着共线性,因此使用PLS回归进行研究。

    (2)研究步骤

    PLS回归一般的分析步骤分为两个步骤,分别如下:

    第一步:确认提取主成分数量,通过交叉有效性和投影重要性VIP分析表格进行确认;

    第二步:基于第一步主成分数量基础上,进行回归分析。

    其中又包括以下几个步骤:①建立主成分与Y的关系表达式、②描述主成分与研究项之间的相关系数loading值、③描述主成分与研究间之间信息解释率(浓缩率)即精度分析、④建立原始自变量X对Y的回归方程以及、⑤X对Y的解释力度。

    (3)操作步骤

    使用途径:SPSSAU→进阶方法→PLS回归  

    放置位置如下:

     

    (4)结果分析

    第一阶段:确认提取主成分数量。先不设定提取的成分数量,点击“开始PLS回归分析”。

    ①投影重要性指标汇总

    投影重要性指标汇总 SPSSAU-VIP指标直方图  

    投影重要性指标VIP值汇总表可用于辅助判断主成分数量,并且更多用于反映X对于Y(整体)的影响力度。值越大说明解释力度越强,如果说主成分继续增加,VIP值并没有明显的增加,则说此时的主成分个数为最佳提取个数。

    上图表中显示,1个主成分和2个主成分时,3个X对应的VIP指标变化均很小,仅X3有着一定变化(从0.414到0.565),2个主成分到3个主成分时,3个X对应的VIP指标变化也很小。因而说明可能1个主成分或者2个主成分均较为适合,具体还可以结合交叉有效性进行综合决定。

     

    ②交叉有效性分析

    交叉有效性分析

    上表展示的是提取不同主成分个数时的误差平方和SS,预测误差平方和PRESS,以及Qh²共三个指标。

    常见的判断主成分个数的标准是Qh²大于0.0975,说明该主成分对模型是有贡献的,如果Qh²小于0.0975,意味着该成分对于模型没有贡献。

    由上表可知,只有当主成分为1时,Qh²值符合判断大于0.0975,第2个或者第3个主成分对于模型没有贡献,因此最终选择1个主成分作为结论。

    第二阶段:确定提取主成分个数后,回到分析页面,将【成分数量】改为1,即提取1个主成分。点击开始PLS回归分析。

    SPSSAU分析界面

    ①主成分与研究项数学关系表达式

    SPSSAU智能文字分析

    上图是系统自动生成的主成分表达式,可直接使用。

    ②主成分与研究项相关分析(loading值)

    上表用于分析主成分与分析项间的相关关系,loading值即为主成分与研究项之间的因子载荷系数(factor loading)值。

    由上表可知,主成分U1与原自变量X1、X2、X3的因子载荷系数值分别为0.066、0.676、-0.359。说明主成分U1与X1、X2的相关关系更紧密,有较强的正相关关系,主成分U1与X3呈负相关关系。主成分V1与Y1,Y2,Y3均有着负向的相关关系。

    ③因变量Y与自变量X间关系之回归系数

    SPSSAU-标准化回归系数  

    上表格展示因变量Y与自变量X之间的回归方程,具体如下:

    Y1(单杠)=-0.202*X1(体重)-0.264*X2(腰围)+0.082*X3(脉搏)

    Y2(弯曲)=-0.245*X1(体重)-0.321*X2(腰围)+0.099*X3(脉搏)

    Y3(跳高)=-0.084*X1(体重)-0.110*X2(腰围)+0.034*X3(脉搏)

    ④精度分析

    以上两个表分别反映的是主成分对U1和V1对应研究项的信息提取情况。实际研究中,一般只需要分析主成分U与X的精度分析;主成分V与Y的精度分析。原因在于主成分U为X的信息浓缩,主成分V为Y的信息浓缩。

    ⑤投影重要性指标汇总表

    从上表可知,X1对于所有Y的解释力度最高(VIP值为1.336),其次是X1(VIP为1.022),X3对于所有Y的解释力度最低。

    其他说明

    (1)PLS回归涉及大量主成分分析与典型相关的知识,建议可以先了解对应的知识,再进行使用,以免误用。

    (2)主成分是以成对形式出现,比如结合VIP分析和交叉有效性分析,得出主成分数量为2,其实是两对主成分;U1和V1为一对;U2和V2为一对; U1,U2代表对于X的信息浓缩; V1和V2代表对于Y的信息浓缩。

    (3)PLS回归适合小样本量(不超过200),自变量存在多重共线性以及同时研究多个X对多个Y的影响。

    登录SPSSAU官网体验在线数据分析​​​​

    相关文章

      网友评论

        本文标题:PLS回归应用案例(Partial least squares

        本文链接:https://www.haomeiwen.com/subject/vafgdctx.html