(2022.06.21 Tues)
回归分析中,两个或以上自变量之间存在的相关性,称为多重共线性multicollinearity。
影响
当变量间的相关性达到0.7以上时,认为变量间有严重的多重共线性。此时,难以采用固定变量法测定单独变量对模型的影响和稳定性。因固定一个变量a,却难以固定与其高度相关的变量,也就无法应用该方法。
- 难以区分每个变量对因变量的单独影响,变量的显著性检验失去意义
- 回归模型缺乏稳定性,样本的微小扰动都可能给参数带来很大的变化
- 求不出回归系数a或回归系数a变得不可靠,方差增大,使得回归模型失真,导致预测结果不稳定或不可靠。
- 回归系数a正负方向不可控。即就算可以求出回归系数a,但会出现本应该出现正值的地方出现负值或者相反。
检测方法
- 相关性分析:测定不同变量间的相关性
- 方差膨胀银子Variance Inflation Factor:当VIF大于5或10时,表示模型存在严重的共线性问题
解决方案
- 变量数目不多时,排除共线性变量
- PCA等降维方法:对于共线性较强的变量之间,当采取PCA提取了新的变量后,往往这些变量间的组内差异小而组间差异大,起到了消除共线性的问题
- 逐步回归法(stepwise regression):逐个引入自变量,引入的条件是该自变量经F检验后是显著的,每引入一个自变量后,对已选入的变量进行逐个检验,如果原理引入的变量由于后面变量的引入而变得不再显著,那么就将其剔除。引入一个变量或从回归方程中剔除一个变量,为逐步回归的一步,每一步都要进行F检验,以确保每次引入新变量之前回归方程中只包含显著的变量。这个回归反复进行,直到既没有不显著的自变量进入回归方程,也没有显著自变量从回归方程中剔除为止。
简而言之:
a.建立全变量回归方程
b.分别建立单独的回归方程,依照t检验和拟合度依次加入各变量来构建回归方程。
c.判断新引入的变量,对于之前的系数影响是否显著,是否符合实际以及对于拟合度的变量,来选择是否将变量引入模型中。 - 减小参数估计量的方差:岭回归法(Ridge Regression)
- 差分法:针对时间序列数据、线性模型,将原模型变换为差分模型。
Reference
1 CSDN zyq_go 多重共线性问题
网友评论