美文网首页
回归模型中控制变量的多重共线性问题

回归模型中控制变量的多重共线性问题

作者: 韦子谦 | 来源:发表于2024-05-19 12:47 被阅读0次

1、什么是多重共线性

多重共线性(multicollinearity, 简称collinearity)意味着预测变量之间高相关,这会影响我们在回归模型中观察某个预测变量对结果变量的单独影响。

例如我们想看x1和x2对y的影响,但是x1和x2高相关,这时x1对y的作用会受到x2影响。

这里可以借用调节效应来理解。在做中介调节模型前,我们一般会做一个相关矩阵,来看看哪些变量之间是高相关的,毕竟只有彼此高相关的变量才有做调节效应的价值。当然调节效应的研究假设和回归分析不一样,不可理解为同一回事,这里只是从数据的层面类比了相关性的情况。

上述x1、x2、y的例子考虑的是数据中的多重共线性(data-based multicollinearity)。此外还有结构多重共线性(structrual multicollinearity),例如,将x1、x1的平方作为预测变量,很显然x1和x1的平方是高相关的。关于这一情况,请看references。

关于共线性的原理,Rawlings et al. (1998) 书里有详细的描述。

2、为什么会出现多重共线性?

根据Rawlings et al. (1998, pp. 433-434),有四种可能:

1、变量的数学特性。例如对x1取平方,然后预测x1、x1的平方对y的影响。很显然此时x1、x1的平方是高相关的;
2、变量在某一个系统中的属性。例如某两个变量在心理学中就是高相关的;
3、糟糕的取样;
4、糟糕的实验设计。

1和2对应了上述的data-based and structrual collinearity。

3、通过计算VIF来判断多重共线性

判断多重共线性的方法是计算每个预测变量的VIF(variance inflation factor)。

VIF指的是某个变量的引入对模型的系数的变异(variance)的膨胀程度(inflation)。

一个变量和越多其它变量高相关,则VIF越高。

计算方法是去掉第i个变量后,将模型的R方代入公式:VIF_i = 1/(1 - Rsqaure_i)

可以跑一下模型然后按照上述公式手算,这样能更好理解。

4、引入控制变量时,共线性问题的两种情况

继续用上述x1、x2、y的例子。假设我们还有控制变量z1、z2、z3。其中,z1的VIF高,此时可能意味着两种情况:

(1)z1的高VIF值是因为z1和z2、z3高相关,则问题不大(也就是控制变量之间的高相关);

(2)如果z1不仅和z2、z3高相关,还和x1、x2高相关,则会直接影响到x1、x2的系数的预测,问题比较大。

上述提到的(1)问题不大,只是相对于(2)而言。但是(1)依然会影响模型中各种系数的标准误,包括x1、x2的系数的标准误(或者说,使slopes的confidence intervals不再狭窄、精确),从而间接影响x1、x2对y的效应的显著性。

5、解决方法

收集更多数据。

考虑合并变量(例如z1、z2、z3是父母教育情况、父母工资、父母社会地位,则可以考虑用PCA合并成单独的变量,叫家庭社会经济地位)。

考虑删除部分VIF高的控制变量,并在文章中进行说明。

如果只出现情况(1),且模型显著,那么应该也可以接受(篇幅允许的话,可以在文章中进行说明,例如讨论共线性问题对于结果揭示的可能影响)。

6、补充说明

以上的解决方法是我根据网络上搜索的资料得到的。不过Rawlings et al. (1998, p. 457) 给出了更为宽松的策略:只要共线性反映的是变量本身的关系(但不能是取样导致的),就无所谓。

仔细想想,似乎也合理?如果人为地去处理共线性的问题,反倒可能影响了分析过程的客观性。

References

----------2024.05.24更新----------
根据Applied Regression Analysis: A Research Tool (2rd edition)一书调整了内容

相关文章

  • 多重共线性问题相关

    多元回归分析中的共线性问题 原创 2015-11-13 ccccfys spss统计分析 多重共线性:回归模型中,...

  • 类范数与桥回归法

    桥回归法(bridge regressionmethod)回归分析法的一种。即对存在着多重共线性,线性回归模型参数...

  • 多重共线性案例

    SPSSAU处理多重共线性问题 一、说明 当回归模型中两个或者两个以上的自变量高度相关(比如相关系数大于0.7)时...

  • 2020-10-20应用回归分析-计量经济学记stata应用

    第一讲 一元线性回归模型 第二讲 多元线性回归模型 第三讲 多重共线性 第四讲 虚拟变量回归模型 第五讲 离散选择...

  • 各类统计方法R语言实现(七)

    今天是各类统计方法R语言实现的第七期,我们主要介绍多重共线性、异常观察值的分析和回归模型改进措施。 多重共线性 多...

  • 岭回归

    岭回归 岭回归和lasso解决回归中重大疑难问题:排除多重共线性,进行变量的选...

  • 机器学习-10 线性回归及其相关算法

    返回主页 本节讨论四个内容:1、线性回归2、多重共线性问题3、岭回归4、局部加权线性回归 线性回归(Linear ...

  • 出现多重共线性问题,如何处理?

    在进行线性回归分析时,容易出现自变量(解释变量)之间彼此相关,这种情况被称作多重共线性问题。 适度的多重共线性不成...

  • Linear Regression (线性回归)

    概述 线性回归是机器学习的一种回归模型,同时也是统计学中的回归模型。回归模型主要被用来预测真实值,相反分类问题主要...

  • 多重共线性、异方差和自相关性

    1.多重共线性 多重共线性是解释变量存在线性关系或者近似的线性关系,多重共线性影响的模型一般为底层是线性的模型,例...

网友评论

      本文标题:回归模型中控制变量的多重共线性问题

      本文链接:https://www.haomeiwen.com/subject/ffogfjtx.html