美文网首页
Omitted Variable Bias (OBV) 遗漏变

Omitted Variable Bias (OBV) 遗漏变

作者: 数科每日 | 来源:发表于2021-03-07 14:43 被阅读0次

    Omitted Variable Bias (OBV) 指的是, 一个统计模型遗漏了一些变量, 而模型把遗漏变量对响应变量的影响, 算在了已经包含的变量头上(张冠李戴了)。

    发生 OBV 的必要条件

    • 被遗漏的变量确实对Response Variable 有影响
    • 被遗漏的变量必须和已包含的变量相关 (相关系数不为0)

    详解

    假设真实的因果关系是这样的:

    y = a + bx + cz + u (1)

    也就是说,响应变量 y 被 x ,z 影响,其中 u 是误差项。假设 x 和 z 有如下关系

    z = d + fx + e (2)

    把 (2)带入 (1) 中, 得到:

    y= (a + cd) + (b + cf) x + (u + ce) (3)

    由 (3)可以得知, 当遗漏了 z 时, x 的系数就变成了 (b + cf) 而不是 b 。 其中 b 是 x 和 y 的直接关系, 而 cf 是间接关系。

    cf 包含了 OBV 的 extend 和 direction

    • extend: cf 的绝对值
    • direction: cf 的正负性

    其中:

    • cf > 0 时, x 的作用会被 bias 变大 (夸大x的用处)
    • cf < 0 时, x 的作用会被 bias 变小 (贬低x的用处)

    例子

    一个测算被雇佣与本科学历的回归如下

    employed ~ college
    

    结果如下

    image.png

    之后, 研究者发现, 还应该引入是否是黑人这个变量, 于是,模型改为

    employed ~ college + black 
    

    结果如下

    image.png

    分析: 在第一个模型中, 由于遗漏了 black 这个变量,导致高估了获得大学学位的重要性 (0.0244 vs 0.0231)。

    思考题
    基于以上两个回归结果, 黑人获得大学学位的情况如何 ?

    解答
    对应公式 (1) (2) (3), 其中 :

    • college 是 x
    • black 是 z

    从第一个模型可得: (b + cf) = 0.0244 , 第二个模型可得 b = 0.0231, 由此可得:
    cf = 0.0244 - 0.0231 = 0.0013
    另外, 从第二个模型可知, c = -0.0347 ,
    所以
    f = 0.0013 / -0.0347 = -0.037
    也就是说:
    x (college) 和 z (black) 是负相关的, 所以可以得到, 黑人更少的获得大学学位。

    相关文章

      网友评论

          本文标题:Omitted Variable Bias (OBV) 遗漏变

          本文链接:https://www.haomeiwen.com/subject/mnfyqltx.html