Lecture3

作者: 数科每日 | 来源:发表于2021-05-21 20:10 被阅读0次

Lecture3 视频链接
Reporter: Jonas Peters


第三部分 从观察数据生成SCM

两个变量之间的因果关系

对于一组数据, 如果只包括2个变量 X, Y。由于 Markov 等价类的原因, 无法相关性上推导出 X, Y 的因果关系, 因为存在如下两种可能

  • X \rightarrow Y
  • X \leftarrow Y
    由于不存在 d-sep 所以, 无法区分以上两种关系。

Restricted SCM --- 线性关系与高斯分布

在下图中, 假设上: Y 可以写成 XN_{Y} 的线性组合。 如果,XN_{Y} 的联合概率分布不是高斯分布, 那么就无法得到由 YM_{X} 组成的,关于X 的线性关系。

基于此, 我们就可以得到了因与果的可辨别性

image.png

例子

假设, XN_{Y} 现在如下线性关系:

image.png

由上面的关系, 可以得出下面的散点图和回归线(红色)

横坐标是 x, 纵坐标是y

image.png

如果这时试图找出 X \sim Y + M_{X} , 得到的回归如下(红线), 明显这个回归是有问题的(方差不平均)。

image.png

因此, 我们可以通过回归的结果,来判断XY 的因果关系

定理:
如果有 Y = \alpha X + N_{Y}
那么存在 \beta , M_{X}: 使得 X = \beta Y + M_{X}
当且仅当: (X, N_{Y}) 是高斯分布

Restricted SCM --- 时间箭头

image.png

借由上面的定理, 可以推出一些应用

image.png

Restricted SCM --- 非线性关系

如果XY 的关系非线性, 那么因果就不可逆。

image.png

例子

image.png

图形如下

image.png

如果做 X \sim \beta Y + M_{X} 的回归, 残差图如下

image.png
真实案例 海拔与温度
image.png
真实案例 咖啡与诺贝尔奖
image.png

正反两个方向 p-value 都很小 ===》 因果关系弱到不存在?

真实案例 模型判断因果关系的性能

讲着给出了一个实验,基于上面的各种图形, 判断XY 的因果关系。 第二张图给出了各个模型的准确度(Accuracy, Y 轴)沿着 Decision Rate 的变化(测试的答案包括 X导致Y, Y导致X 和 不知道,Decision Rate 反应了 “不知道” 的占比 )。
图中灰色部分(Not significant)表示瞎猜的比率, 高于灰色部分代表了模型是有效的。

image.png image.png

多变量之间的因果关系

如果搞明白了2个变量之间的因果关系,基本等于搞清楚多个变量之间的因果关系

image.png

比如, 对于如下图中包括的2个 SCM , 只要 Condition 在 X 上, 问题就退化成判断 YZ 的因果关系了

image.png

联合概率分布 的SCM可辨别性:

image.png image.png

DAG 爆炸

image.png

一个解决办法是 Greedy Search

对可识别性归类

两个平面的交线,就是上面提到的 Gaussian 分布情况, 在哪条线上, 是分不出来在那个平面上的(同时在两个平面上)。

image.png

一个关于可识别性的定理

这是给出一个 P(Y \rightarrow X) 和 Q(Y \leftarrow X)接近程度的量化, 从而量化了可识别度(identifiable)

KL(P||Q) : P和Q (上图) 的接近程度

image.png

对正式 SCM 拟合的够好么?

这要取决于,你想拿得到的 SCM 去干什么 (What do we want to do with it.)

image.png

一些模型的表现

这里没具体讲模型, 可能需要从其他地方找资料

image.png image.png

invariant causal prediction

每次集中于一个变量

假设有如下一组关系
image.png

此时, 如果直接计算 Y \sim \beta_{1} X_{1} + \beta_{2}X_{2} + \beta_{3} X_{3} + \beta_{0}, 则会得出如下结果:

image.png

用了一个 R 包, 可以进行计算

image.png

这个包的原理, 在这张图里说明了

image.png

给出数学说明: 如果控制住了 Y 的所有父节点(X_{S^{*}}^{e}), Y^{e} 不变。

image.png

另一种表述

image.png

一个实践中的例子

image.png

本例中, 有多个组合通过了验证, 那么最后结果就是这些组合的交集, 是最后得出的 Y 的父节点。

image.png

例子
在最后给出的 验证中, 只有 2, 4 的 p-value < 0.05.

image.png

对于非线性, 就不管用了

image.png

再有隐变量的时候, 也错了

image.png

也不能对Y 进行干预

image.png

相关文章

网友评论

      本文标题:Lecture3

      本文链接:https://www.haomeiwen.com/subject/gjoijltx.html