美文网首页
几种情况可以不用考虑逻辑回归下的线性相关性

几种情况可以不用考虑逻辑回归下的线性相关性

作者: 九日照林 | 来源:发表于2020-01-30 11:55 被阅读0次

    共线性问题

    共线性问题是在构建线性模型当中常见的问题,共线性问题是指预测变量之间存在着线性相关性导致模型预测的相关系数不准确的问题。

    如何诊断共线性

    目前诊断共线性常用的方法就是方差膨胀因子(variance inflation factor)。方差膨胀因子的计算公式为:

    VIF=\frac{1}{1-R^2}

    它的计算方式是遍历所有的自变量,用除了该自变量以外的其他自变量构建一个模型来预测该自变量,可以得到该自变量对应的一个R^2以及对应的方差膨胀因子VIF

    代表的意义是相对于完全不相关(R^2=0VIF=1),用其他自变量预测该自变量得到的VIF「膨胀了多少」。

    例如,假如说某个变量计算出的VIF为2.5,那么也就是R^2相对于完全不相关的情况下的R^2膨胀了125%。

    VIF与共线性的关系

    在不同的情况下VIF需要达到多少值才认为具有共线性,这个问题并没有统一的标准,每个人都有不同的见解。但一般来说,VIF为2.5需要关注一下,这个时候R^2为0.6。

    什么情况下高VIF不是问题

    我们之所以要排除线性相关性强的变量,是因为线性相关性强的变量会扩大相关系数的方差,使得模型的预测不稳定。

    第一点,高线性相关性只存在于控制变量之间,而不存在于我们研究的相关变量间。控制变量可以认为是一个无关的变量的时候。比如我们想研究私立/公立高中对大学的毕业率的影响,前面一个变量是自变量,是分类变量;后者是自变量。但同时也有SAT成绩和ACT成绩。后面这两个变量SAT成绩和ACT成绩是高度相关的,并且也会显著影响大学毕业率,那么就是我们要控制的变量,但是和「私立/公立学校」这个变量无关。

    那么这个时候SAT成绩和ACT成绩如果都是随机抽取的话,私立或者公立下的毕业率就会相当于是控制了SAT成绩和ACT成绩这两个变量下的结果。

    第二点,当你引入了变量组合之间的指数或者乘积的时候。比如有个自变量x,z,以及xz还有x^2,那么这也会产生高VIF,但是这也是不用考虑的。

    第三点,如果预测变量为分类变量,并且用来作为参考的变量的数量占比很少。举个例子,假如有个分类变量为婚姻状况,独热编码后为「已结婚」,「未结婚」,「已离婚」。其中占比分别为0.45, 0.45以及0.1。那么以「已离婚」作为预测的变量之一,无论是用「已离婚」+「已结婚」去预测「未结婚」,还是用「已离婚」+「未结婚」去预测「已结婚」,「已结婚」和「未结婚」都明显呈现出负相关性。他们之间的VIF至少是3.0,这种情况下的VIF也是可以不用考虑的。

    相关文章

      网友评论

          本文标题:几种情况可以不用考虑逻辑回归下的线性相关性

          本文链接:https://www.haomeiwen.com/subject/otsjthtx.html