多重共线性案例

作者: spssau | 来源:发表于2022-09-25 12:19 被阅读0次

多重共线性案例
在Python中实现多重共线性的可视化
多重共线性、异方差和自相关性
出现多重共线性问题，如何处理？
Stata系列-如何处理多重共线性
面试题：降维的必要性和目的是什么
各类统计方法R语言实现（七）
深度学习知识点汇总-机器学习基础（12）
线性回归模型中的多重共线性问题判别与解决
多重共线性

SPSSAU处理多重共线性问题

一、说明

当回归模型中两个或者两个以上的自变量高度相关（比如相关系数大于0.7）时，则称为多重共线性。虽然在实际分析中，自变量高度相关是很常见的，但是在回归分析中存在多重共线性可能会导致一些问题，比如相关分析是负相关回归分析时影响关系是正影响等，所以针对多重共线性问题需要去解决。

二、判断标准与处理办法

1.判断标准

那么如何去解决多重共线性问题？首先对多重共线性的常见判断标准进行说明:

一般有3种方法可以检测多重共线性。

较常使用的是回归分析中的VIF值，VIF值越大，多重共线性越严重。一般认为VIF大于10时（严格是5），代表模型存在严重的共线性问题。
有时候也会以容差值作为标准，容差值=1/VIF，所以容差值大于0.1则说明没有共线性(严格是大于0.2)，VIF和容差值有逻辑对应关系，两个指标任选其一即可。
除此之外，直接对自变量进行相关分析，查看相关系数和显著性也是一种判断方法。如果一个自变量和其他自变量之间的相关系数显著，则代表可能存在多重共线性问题。

2.处理办法

多重共线性是普遍存在的，通常情况下，如果共线性情况不严重（VIF<5），不需要做特别的处理。如存在严重的多重共线性问题，可以考虑使用以下几种方法处理：

（1）手动移除出共线性的变量

先做下相关分析，如果发现某两个自变量X（解释变量）的相关系数值大于0.7，则移除掉一个自变量（解释变量），然后再做回归分析。此方法是最直接的方法，但有的时候我们不希望把某个自变量从模型中剔除，这样就要考虑使用其他方法。

（2）逐步回归法

让系统自动进行自变量的选择剔除，使用逐步回归将共线性的自变量自动剔除出去。此种解决办法有个问题是，可能算法会剔除掉本不想剔除的自变量，如果有此类情况产生，此时最好是使用岭回归进行分析。

（3）增加样本容量

增加样本容量是解释共线性问题的一种办法，但在实际操作中可能并不太适合，原因是样本量的收集需要成本时间等。

（4）岭回归

上述第1和第2种解决办法在实际研究中使用较多，但问题在于，如果实际研究中并不想剔除掉某些自变量，某些自变量很重要，不能剔除。此时可能只有岭回归最为适合了。岭回归是当前解决共线性问题最有效的解释办法。

三、案例说明

一家大型商业银行在多个地区设有分行，其业务主要是进行基础设施建设、国家重点项目建设、固定资产投资等项目的贷款。近年来，该银行的贷款额平稳增长，但不良贷款额也有较大比例的提高，这给银行业务的发展带来较大压力。（案例参考来源：统计学第7版中国人民大学出版社）为了弄清不良贷款形成原因，管理者希望利用银行业务的有关数据进行分析，以便参考不良贷款对该银行所属的25家分行进行分析发现自变量之间存在较高的相关性，因而查看vif值发现存在多重共线性，案例选择岭回归模型进行处理。具体分析如下：

四、判断多重共线性

该案例利用相关分析和检验VIF值两个方面进行验证多重共线性。首先进行相关分析以及进一步查看VIF值。

1.相关分析

从图片上来看“各项贷款余额”与“贷款项目个数”、“本年固定资产投资额”以及“贷款项目个数”与“本年固定资产投资额”高度相关相关系数都分别约为0.848、0.780以及0.747都大于0.7，说明可能存在共线性问题进一步查看vif值进行确定。

2.VIF值

从结果中可以看出，分析项中VIF值存在大于5的现象从严格意义来讲存在多重共线性，并且相关分析发现自变量之间存在较高的相关性。如果研究者也遇到此类问题，结果并不影响分析则不需要处理。所以该案例分析场景认为存在多重共线性，因为不想剔除自变量所以使用岭回归更合适。用岭回归进行分析后就不需要担心共线性的问题了。

五、岭回归

首先岭回归分析前需要结合岭迹图确认K值。首先拖拽分析项到分析框，不输入K值，SPSSAU会默认生成岭迹图，同时给出智能分析建议。

图中可以看到，当K值为0.99时，此时自变量的标准化回归系数趋于稳定，因而SPSSAU建议设置最佳K值取为0.99。

本案例中K值取0.99，返回分析界面，输入K值，得出岭回归模型估计。输出结果如下：

从模型效果和模型结果两个方面进行说明：其中模型效果包括F检验和模型拟合优度。

1、模型效果

首先对F检验进行查看与说明。

F检验

回归方程的显著性检验中，统计量F=9.757，对应的p值小于0.05，通过检验，说明模型显著。然后对模型拟合优度进行简单查看。

拟合优度

从上表可以看出，模型R方值为0.661，意味着各项贷款余额, 本年累积应收贷款, 贷款项目个数, 本年固定资产投资额可以解释不良贷款的66.12%变化原因。说明模型拟合较好，接下来对模型结果进行分析。

2、模型结果

接下来对模型结果进行分析。其中包括模型公式，分析结果以及影响关系及大小。

模型公式与结果

从上表可知，

模型公式为：不良贷款（亿元）=-0.159 + 0.012*各项贷款余额（亿元） + 0.126*本年累积应收贷款（亿元） + 0.066*贷款项目个数 + 0.004*本年固定资产投资额（亿元）。

模型的结果为：

各项贷款余额、本年累积应收贷款、贷款项目个数三个自变量p值均小于0.05，具有显著性差异，而本年固定资产投资额p值为0.418大于0.05，不具有统计学意义。

影响关系及大小

如果说自变量X已经对因变量Y产生显著影响(P<0.05)，还想对比影响大小，建议可使用标准化系数值的大小对比影响大小，上图所示，显著的自变量中，各项贷款余额、本年累积应收贷款、贷款项目个数的标准化系数分别为0.264、0.220、0.157。所以各项贷款余额标准化系数最大，进而看出模型中各项贷款余额对不良贷款影响较大。

六、结论

通过对数据进行简单查看，发现数据具有多重共线性所以对数据进行处理，处理的方式选择岭回归，对岭回归分模型效果和模型结果两个方面进行阐述，最后得到公式为：不良贷款（亿元）=-0.159 + 0.012*各项贷款余额（亿元） + 0.126*本年累积应收贷款（亿元） + 0.066*贷款项目个数 + 0.004*本年固定资产投资额（亿元）。以及管理者进行决策时可以多关注“各项贷款余额”这个指标。

多重共线性案例
SPSSAU处理多重共线性问题一、说明当回归模型中两个或者两个以上的自变量高度相关（比如相关系数大于0.7）时...
在Python中实现多重共线性的可视化
在Python中实现多重共线性的可视化网络图的胜利。简介什么是多重共线性？多重共线性是指两个或更多的特征之间...
多重共线性、异方差和自相关性
1.多重共线性多重共线性是解释变量存在线性关系或者近似的线性关系，多重共线性影响的模型一般为底层是线性的模型，例...
出现多重共线性问题，如何处理？
在进行线性回归分析时，容易出现自变量（解释变量）之间彼此相关，这种情况被称作多重共线性问题。适度的多重共线性不成...
Stata系列-如何处理多重共线性
什么是多重共线性呢？如果在解释变量中，有某一解释变量可由其他解释变量线性表出，则称存在“严重多重共线性”。多重共...
面试题：降维的必要性和目的是什么
关注微信公众号"百面机器学习"获取更多降维的必要性：多重共线性和预测变量之间相互关联。多重共线性会导致解空间的...
各类统计方法R语言实现（七）
今天是各类统计方法R语言实现的第七期，我们主要介绍多重共线性、异常观察值的分析和回归模型改进措施。多重共线性多...
深度学习知识点汇总-机器学习基础（12）
2.12 降维的必要性及目的降维的必要性：多重共线性和预测变量之间相互关联。多重共线性会导致解空间的不稳定，从...
线性回归模型中的多重共线性问题判别与解决
最近把统计学读完才终于弄明白信用风险模型中所说的多重共线性到底是什么，为什么要求最终模型中一定不能存在多重共线性，...
多重共线性
判断标准常见的直观判断方法共有四个，如下：（1）某些自变量的相关系数值较大（比如大于0.8）等，可以利用pear...