Causal Inference Bias

作者: shudaxu | 来源:发表于2021-01-25 16:57 被阅读0次

    变量定义:
    T: treatment
    O: outcome
    Cf: confounder
    Md: mediator
    Cd: collider

    Confounder Bias:由于没有控制Confounding variable

    Causal Graph建模:T->O,Cf->T, Cf->T
          所谓confounding variable,是说对treatment与outcome 都有影响的变量。存在confounding variable的时候,我们做causal inference【Effectiveness = p(O| T=1) - p(O| T=0)】时会出现错误结论。[1]
         由于这个概念大多出现在社会科学类研究中,一些观测类的研究并不是通过实验获得的(譬如研究drug的效益,只能去统计,不能要求没病的服用drug。当然,可以通过临床双盲随机实验来研究,但是其成本是很大的),所以有很大概率那些对Outcome有影响的变量,在Treatment变量上都是biased。不过对互联网大多的建模环境来说,这些confounding variable就是那些independent variable。
         从我们做控制实验的角度。由于变量可以受控,所以最直接的方式就是保证Treatment在independent variable(自变量)上的无偏即可(譬如做随机实验),当然,如果建模包含了“所谓的confounding variable”【其实就是independent variable】,那么模型本身也能学习到confounding variable带来的影响。
         这个很好理解,当我们只对高活用户发券的时候,用户活跃性其实对用户转化有很大影响,如果不加入用户活跃性这个confounder,那么我们对发券的建模会高估发券的收益。

    Mediation Bias:错误地控制了Mediation Variable

    Causal Graph建模:T->Md->O,T->O
         由于Treatment通过改变Mediation Variable来改变Outcome,如果我们在实验中控制了Md,那么可能会低估T带来的影响。*(这里直觉上应该就很好理解,就不用举例了)

    Collider Bias:在given Collider变量的情况下观测数据,得到伪关系。

    Causal Graph建模:T->Cd,O->Cd
         这个其实在相同的概率建模中理解起来是一致的。即:T与O是独立的。但是在已知Cd的情况下,T与O不独立。当我们在已知Cd的情况下观测T与O的关系,很可能得出伪关系,因为本身没有因果关系,但是概率统计上表现出来是相关的。
         譬如,我们随机发放大额存单的推广。然后在所有存款的用户样本上观测T(广告),对O(购买雪茄)的关系,发现推广大额存单会影响雪茄的销售?其实可能并不是,只是因为抽雪茄的都是有钱人,有钱人更可能购买大额存单,而不是大额存单影响了雪茄的销售。

    all in one graph

    image.png

    Refer:
    [0]:https://significantlystatistical.wordpress.com/2014/12/12/confounders-mediators-moderators-and-covariates/
    [1]:https://theoreticalecology.wordpress.com/2019/04/14/mediators-confounders-colliders-a-crash-course-in-causal-inference/
    [2]:https://www.cnblogs.com/gogoSandy/p/12001724.html
    [3]:When is a confounder not a confounder?

    相关文章

      网友评论

        本文标题:Causal Inference Bias

        本文链接:https://www.haomeiwen.com/subject/jssfzktx.html