Lecture1

作者: 数科每日 | 来源:发表于2021-05-19 21:48 被阅读0次

    Lecture1 视频链接
    Reporter: Jonas Peters


    image.png

    开场

    1. 因果关系很重要 !

    image.png

    讲着这里举了一个例子: x 轴是某个基因的活跃程度, y轴是该物种的某种性状(这里没说二者相关)。 可以看到, 两个图中, 数据点的分布非常相似, 都是明显的线性相关。 这时讲者提出一个问题:根据现有数据(图中红色圆点), 请给出0点处 y 对应的值。

    在不知道x 和 y因果关系的时候, 只能通过相关性做线性回归, 预测如左图所示。 但是对于右图而言, 实际情况可能是红色竖线所示。 原因是, 有另外一个因素, 同时影响了 x, y。 右图中红色数据点给出的不是趋势, 而是y 的取值范围。 根据这个例子,作者想说明2个道理

    • 在相关性的前提下, 超出既有数据范围以外的预测,是很危险的。 (在上图中,既有数据点x 值范围在(2,8), 这时预测 x=0 时 y 的值, 是不靠谱的。)
    • 在不知道因果关系的时候, 我们对数据的利用是有限的, 而且是容易出错的。

    2. 什么是因果模型

    image.png

    如果你有一个因果模型(例如 结构化因果模型 SCM), 那么就意味着你可以知道:

    • y 的概率分布
    • 因果图
    • 干预因素, 以及干预因素的分布
    • 反事实

    3. 讲者在因果推断上的研究范围

    • 模型是如何工作的?
    • 如果有隐藏的变量或者反馈,该如何处理?
    • 什么是好的图表示?
    • 是否能够测试反事实陈述?
    • 能不能从数据中直接提取因果图?
    • 因果模型是否有用? 对机器学习, 统计?

    4. 因果,统计,数据 的关系

    image.png
    1. 如果有 因果模型(causal modle)那么可以通过 因果推理(causal reasoning) 得出观测数据,结果以及干预效果

    2. 如果有观测数据,结果以及干预效果, 那么可以通过 因果学习/发现 (causal learning / discovery) 来获得 因果模型(causal modle)

    3. 因果模型(causal modle)包含了 统计模型(probilistic model)

    4. 上面的框的数据,干预种类更多, 自然包括了下面的部分

    5. 从数据到统计模型, 这个过程叫 统计学习(statistical learning),也叫机器学习 (machine learning)

    6. 从统计模型到数据: 统计推理。

    这里要注意的是2和5。对于 5 来说, 如果存在无限多的数据, 那么就很容易得到统计模型。当然, 现实中不存在无限多的数据, 但是大数据是一个很好的近似。 也就是说, 在有了大数据的情况下, 统计模型可以很容易获得。 但是2就不一样了, 即使你有无限多的数据, 也不能轻易的得到因果模型, 这个步骤要难的多。

    第一部分 因果语言表示和因果推理

    例1

    image.png

    这是一个简单的例子, 里面只包括2个变量, 一个因一个果。 例如 海拔(altitude)和 温度(temperature)。 左面方框中, 因果常用写法
    X:= N_{x} : X 是一个符合标准正态分布的随机变量(比如,不同地点的海拔)
    Y:= -6X + N_{y} : X, Y 不独立,Y 是果, X 是因, 最后的 N_{y} 代表噪声

    对X的干预

    当对X进行干预, 使得 X=3 时。 Y的分布就变成

    Y {\sim} N(-18,1)

    对Y的干预

    当对Y进行干预, 使得 Y {\sim} N(2,2)

    而这时, X 的分布依然是 X {\sim} N(1,0)。 因为 X 是因, Y 是果, 在因果模型中不能反向推导。 举例解释: 如果通过暖气让温度上升, 这时 Y (tempeture )的分布就会发生变化, 但是这并不会改变当地的海拔 (X)。

    例2

    image.png

    一个相对复杂的例子:

    • G_{0} 是一个无环图
    • f(\cdot) 代表某种函数

    干预 X_{1} 让其等于 0, 记作 P_{do(X_{1} := 0)}

    这时, 上图结构变成如下图

    注意 指向 X_{1} 的箭头消失了, 因为 它被干预了,也就是说,被人为设定了, 因此就不在受到他的 cause 影响了。

    image.png

    下图中, 当对 X_{4} 进行干预时, 指向它的箭头也消失了。

    image.png

    注意,以下两种写法代表不同的意思

    • P_{do(X_{4} := 13)} : 人为进行干预, 会阻断因果链条
    • P(\cdot| X_{4} = 13) : 自然发生行为, 不会阻断因果链条
    例3 肾结石

    这里给出了因果模型, 假设它已知。 在这里, 治疗方案(treatment)会受到结石大小影响(大结石用贵方案, 小结石用便宜的方案)。 治疗结果(recovery)同时受到结石大小(size of stone),和治疗方案(treatment)影响。 这里假设结石越大,治疗结果; 贵的方案,治疗结果好。

    image.png

    当干预了治疗方案(treatment)以后, 上面的因果图就变成了下面的图

    image.png

    下图中, 给出了 A , B 方案的数值, 已经干预前后的因果图。

    注意1: A , B 方案出现了博克森悖论, 在单项上(Small Stone & Large Stone) A方案都好于B方案, 但是在总体治疗效果上 B 方案却优于 A 方案。

    注意2: 下图中,存在 P(R|S, T) = P_{do(T := A)}(R| S, T) 也就是说, 对于 Recovery 来说, 是否控制 Treatment , 并不会影响他和 结石大小(size of stone)和治疗方案(treatment)的关系。

    image.png

    下图计算了, 当干预 T=A时 ,病人痊愈(Recovery = 1) 的期望.
    计算结果

    • E_{do(T := A)} = 0.832
    • E_{do(T := B)} = 0.782

    这意味着, 治疗方案 A要优于 治疗方案B

    注意 1: 这里用到了上面 提到的关系式 P_{do(T := A)}(R| \cdot)= P(R| \cdot, T=A)
    通过消除 do(\cdot) 运算符, 使得可以计算干预后的期望值 E_{do(T := A)}

    注意 2: 从上图推导出来

    • P(R=1 | T=A) = 0.78
    • P(R=1 | T=B) = 0.83
      也就是说, E_{do(T := A)} \neq P(R=1 | T=A)P(R=1 | T=A) 是没有干预情况下的观察结果。

    注意 3: 基于干预的期望 E_{do(T := A)} , E_{do(T := B)} 得出的结论是 A 的疗效更好。 而基于观察 (P(R=1 | T=A), P(R=1 | T=B) )得出的结论是 B 疗效好。 两个结论是对立的。 而仔细看分项目时(Small Stone & Large Stone), 每个分项目又都是 A 好。 正确的答案是 A好, 这里存在博克森悖论。 导致(P(R=1 | T=A), P(R=1 | T=B) )得出的结论是 B 疗效好的原因在于, B方案治疗大大量的 Small Stone (容易的病例)。 由此可以得出:
    基于控制得出的结论, 比观察得出的结论更靠谱

    image.png

    由上面式子引出的定义(来源于 Perl 的书)

    image.png
    关于因果强弱的定义

    讲着给出了关于Casual 强弱的定义
    C_{X->Y} := \frac{\partial}{\partial x} E_{do (X := x)}[Y]

    在干预X的情况下, 当X变动一点点时, Y变化越大 C越大, 意味着 X, Y 的因果强度越大。

    例4

    在本例中, 如果要测算 X 对Y的影响, 不能直接用回归 Y \sim X 。因为存在一个后面路径:X \leftarrow A \rightarrow K \rightarrow Y , 这种情况下, 需要在后面路径上的一点,进行干预, 比如 A, K

    image.png
    例5

    这个例子, 提到在 1950年代, 一个关于吸烟和肺癌关系的质疑, 就是认为存在同时影响吸烟 (Smoking) 和 肺癌(Cancer)的因素, 而当时提到的X因素是基因。 如果存在一种基因, 一方面导致携带该基因的人爱抽烟, 同时也更容易患肺癌, 那么就不能说吸烟导致了肺癌。 如果这种基因存在, 而且有效, 那么就是 吸烟基因同时导致了吸烟和肺癌。 而在1950年代, 基因只是被发现, 并无法检测, 所以这就给禁烟造成了很大的困扰。

    image.png
    例6

    James Lind 利用随机实验治疗坏血病的例子。 只要进行随机,就可以斩断所有 X Parents 的影响, 从而得出正确的关系。

    image.png

    最后,给了一个关于 因果模型等价的定义 Equivalence of causal model

    image.png

    相关文章

      网友评论

          本文标题:Lecture1

          本文链接:https://www.haomeiwen.com/subject/fyspjltx.html