几种情况可以不用考虑逻辑回归下的线性相关性

作者: 九日照林 | 来源:发表于2020-01-30 11:55 被阅读0次

几种情况可以不用考虑逻辑回归下的线性相关性
机器学习浅尝
FFM算法
回归的分类
机器学习day7-逻辑回归问题
逻辑回归
算法概述-02
Task 01|基于逻辑回归的分类预测
demo1: Tensorflow实现Linear regres
Logistic回归

共线性问题

共线性问题是在构建线性模型当中常见的问题，共线性问题是指预测变量之间存在着线性相关性导致模型预测的相关系数不准确的问题。

如何诊断共线性

目前诊断共线性常用的方法就是方差膨胀因子(variance inflation factor)。方差膨胀因子的计算公式为：

$VIF=\frac{1}{1-R^2}$

它的计算方式是遍历所有的自变量，用除了该自变量以外的其他自变量构建一个模型来预测该自变量，可以得到该自变量对应的一个 $R^2$ 以及对应的方差膨胀因子 $VIF$ 。

代表的意义是相对于完全不相关( $R^2=0$ ， $VIF=1$ )，用其他自变量预测该自变量得到的VIF「膨胀了多少」。

例如，假如说某个变量计算出的VIF为2.5，那么也就是 $R^2$ 相对于完全不相关的情况下的 $R^2$ 膨胀了125%。

VIF与共线性的关系

在不同的情况下VIF需要达到多少值才认为具有共线性，这个问题并没有统一的标准，每个人都有不同的见解。但一般来说，VIF为2.5需要关注一下，这个时候 $R^2$ 为0.6。

什么情况下高VIF不是问题

我们之所以要排除线性相关性强的变量，是因为线性相关性强的变量会扩大相关系数的方差，使得模型的预测不稳定。

第一点，高线性相关性只存在于控制变量之间，而不存在于我们研究的相关变量间。控制变量可以认为是一个无关的变量的时候。比如我们想研究私立/公立高中对大学的毕业率的影响，前面一个变量是自变量，是分类变量；后者是自变量。但同时也有SAT成绩和ACT成绩。后面这两个变量SAT成绩和ACT成绩是高度相关的，并且也会显著影响大学毕业率，那么就是我们要控制的变量，但是和「私立/公立学校」这个变量无关。

那么这个时候SAT成绩和ACT成绩如果都是随机抽取的话，私立或者公立下的毕业率就会相当于是控制了SAT成绩和ACT成绩这两个变量下的结果。

第二点，当你引入了变量组合之间的指数或者乘积的时候。比如有个自变量x，z，以及xz还有 $x^2$ ，那么这也会产生高VIF，但是这也是不用考虑的。

第三点，如果预测变量为分类变量，并且用来作为参考的变量的数量占比很少。举个例子，假如有个分类变量为婚姻状况，独热编码后为「已结婚」，「未结婚」，「已离婚」。其中占比分别为0.45, 0.45以及0.1。那么以「已离婚」作为预测的变量之一，无论是用「已离婚」+「已结婚」去预测「未结婚」，还是用「已离婚」+「未结婚」去预测「已结婚」，「已结婚」和「未结婚」都明显呈现出负相关性。他们之间的VIF至少是3.0，这种情况下的VIF也是可以不用考虑的。

网友评论

本文标题：几种情况可以不用考虑逻辑回归下的线性相关性

本文链接：https://www.haomeiwen.com/subject/otsjthtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

几种情况可以不用考虑逻辑回归下的线性相关性

共线性问题

如何诊断共线性

VIF与共线性的关系

什么情况下高VIF不是问题

相关文章

几种情况可以不用考虑逻辑回归下的线性相关性

机器学习浅尝

FFM算法

回归的分类

机器学习day7-逻辑回归问题

逻辑回归

算法概述-02

Task 01|基于逻辑回归的分类预测

demo1: Tensorflow实现Linear regres

Logistic回归

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读