在进行回归分析时,通常都是考察多个X对Y的影响,但有时复杂的研究也会涉及研究多个X对多个Y的影响,尤其是数据存在当自变量存在多重共线性问题时,普通的多元线性回归无法很好的解决问题。PLS回归则能很好的解决这些问题。
应用场景
PLS回归(Partial least squares regression,偏最小二乘法回归),是一种研究影响关系的多元统计方法。
主要用于解决共线性问题、分析多个自变量对多个因变量Y的影响关系、以及处理小样本。
案例应用
(1)背景
本案例研究身体特征指标(共3个X,分别是体重X1、腰围X2和脉博X3)对于训练指标(共3个Y,分别是单杠Y1、弯曲Y2和跳高Y3)的影响关系,样本数据为20个。由于数据样本量非常小(20个),并且因变量为3个无法概括成一个,并且3个X之有着共线性,因此使用PLS回归进行研究。
(2)研究步骤
PLS回归一般的分析步骤分为两个步骤,分别如下:
第一步:确认提取主成分数量,通过交叉有效性和投影重要性VIP分析表格进行确认;
第二步:基于第一步主成分数量基础上,进行回归分析。
其中又包括以下几个步骤:①建立主成分与Y的关系表达式、②描述主成分与研究项之间的相关系数loading值、③描述主成分与研究间之间信息解释率(浓缩率)即精度分析、④建立原始自变量X对Y的回归方程以及、⑤X对Y的解释力度。
(3)操作步骤
使用途径:SPSSAU→进阶方法→PLS回归放置位置如下:
(4)结果分析
第一阶段:确认提取主成分数量。先不设定提取的成分数量,点击“开始PLS回归分析”。
①投影重要性指标汇总
投影重要性指标汇总 SPSSAU-VIP指标直方图投影重要性指标VIP值汇总表可用于辅助判断主成分数量,并且更多用于反映X对于Y(整体)的影响力度。值越大说明解释力度越强,如果说主成分继续增加,VIP值并没有明显的增加,则说此时的主成分个数为最佳提取个数。
上图表中显示,1个主成分和2个主成分时,3个X对应的VIP指标变化均很小,仅X3有着一定变化(从0.414到0.565),2个主成分到3个主成分时,3个X对应的VIP指标变化也很小。因而说明可能1个主成分或者2个主成分均较为适合,具体还可以结合交叉有效性进行综合决定。
②交叉有效性分析
交叉有效性分析上表展示的是提取不同主成分个数时的误差平方和SS,预测误差平方和PRESS,以及Qh²共三个指标。
常见的判断主成分个数的标准是Qh²大于0.0975,说明该主成分对模型是有贡献的,如果Qh²小于0.0975,意味着该成分对于模型没有贡献。
由上表可知,只有当主成分为1时,Qh²值符合判断大于0.0975,第2个或者第3个主成分对于模型没有贡献,因此最终选择1个主成分作为结论。
第二阶段:确定提取主成分个数后,回到分析页面,将【成分数量】改为1,即提取1个主成分。点击开始PLS回归分析。
SPSSAU分析界面①主成分与研究项数学关系表达式
SPSSAU智能文字分析上图是系统自动生成的主成分表达式,可直接使用。
②主成分与研究项相关分析(loading值)
上表用于分析主成分与分析项间的相关关系,loading值即为主成分与研究项之间的因子载荷系数(factor loading)值。
由上表可知,主成分U1与原自变量X1、X2、X3的因子载荷系数值分别为0.066、0.676、-0.359。说明主成分U1与X1、X2的相关关系更紧密,有较强的正相关关系,主成分U1与X3呈负相关关系。主成分V1与Y1,Y2,Y3均有着负向的相关关系。
③因变量Y与自变量X间关系之回归系数
SPSSAU-标准化回归系数上表格展示因变量Y与自变量X之间的回归方程,具体如下:
Y1(单杠)=-0.202*X1(体重)-0.264*X2(腰围)+0.082*X3(脉搏)
Y2(弯曲)=-0.245*X1(体重)-0.321*X2(腰围)+0.099*X3(脉搏)
Y3(跳高)=-0.084*X1(体重)-0.110*X2(腰围)+0.034*X3(脉搏)
④精度分析
以上两个表分别反映的是主成分对U1和V1对应研究项的信息提取情况。实际研究中,一般只需要分析主成分U与X的精度分析;主成分V与Y的精度分析。原因在于主成分U为X的信息浓缩,主成分V为Y的信息浓缩。
⑤投影重要性指标汇总表
从上表可知,X1对于所有Y的解释力度最高(VIP值为1.336),其次是X1(VIP为1.022),X3对于所有Y的解释力度最低。
其他说明
(1)PLS回归涉及大量主成分分析与典型相关的知识,建议可以先了解对应的知识,再进行使用,以免误用。
(2)主成分是以成对形式出现,比如结合VIP分析和交叉有效性分析,得出主成分数量为2,其实是两对主成分;U1和V1为一对;U2和V2为一对; U1,U2代表对于X的信息浓缩; V1和V2代表对于Y的信息浓缩。
(3)PLS回归适合小样本量(不超过200),自变量存在多重共线性以及同时研究多个X对多个Y的影响。
登录SPSSAU官网体验在线数据分析
网友评论