作者:童天天 (中南财经政法大学)
Stata 连享会: 知乎 | 简书 | 码云 | CSDN | StataChina公众号
Source:Credibility Toryism: Causal Inference, Research Design, and Evidence
- Stata连享会 计量专题 || 公众号合集
点击查看完整推文列表
2020寒假Stata现场班 (北京, 1月8-17日,连玉君-江艇主讲),「+助教招聘」
![](https://img.haomeiwen.com/i7692714/1fdb22775dc4a9b6.jpg)
政治学家对于因果推断情有独钟。当一个政治学家说他们将对观测数据采取“因果推理”的方法时,他们一般选择通过 Neyman-Rubin 因果模型来解释数据,以此来证明某种形式的匹配过程是合理的,从而估计出我们想要的平均处理效应。那么,通过匹配模型进行因果推断是否合理呢?如果不合理,我们又应该如何进行处理效应的因果推断呢?
1. 什么是处理效应?
一个个体 拥有两种潜在结果,分别为
和
。其中,
表示个体接受处理后得到的结果,比如接受培训后的工资水平。
表示个体未经处理得到的结果,比如未接受培训的工资水平。用一个哑变量
表示是否接受处理,表示为:
由于 使得个体
只有拥有一种可能结果
:
其中 就是所谓的处理效应。
一般来说,我们感兴趣的是处理变量 D 和结果变量 Y 之间的因果关系,开篇提到将匹配模型作为因果推理过程是否合理呢?其实并不然。在进行 D 对 Y 的因果推断过程中存在多种问题,匹配并不能解决这些问题。
2. 存在的问题
- [1] 内生性问题(比如 Y 反向影响 D,比如工资收入水平越高的个体更倾向于选择接受培训)。
- [2] 伪相关问题(存在一个变量 W,W 影响 D 进而影响 Y ,比如公司承诺只要参加培训就增加 10% 的工资收入)。
- [3] 选择性偏误(样本选择不具有随机性,样本中的 D 与 Y 之间可就存在某种关系)。
- [4] 生态推理问题(例如:在聚合单位上,D 的均值与 Y 的均值相关,但是在个体层面上却存在不同的关系)。
- [5] 非代表性样本(在研究中, D 和 Y 之间的关系不符合总体中两者之间的关系,这是因为样本中环境因素 Z 的分布不符合总体中 Z 的分布)。
- [6] 外部有效性(研究结果的代表性或普遍性,研究环境中的结果不能应用到真实情景中)。
- [7] 无效或不可靠的测量。
- [8] 在没有因果关系的 D 和 Y 之间偶然地产生了一种关系。
- [9] 模型依赖(我们用来修正上述问题的统计技术高估了估计值)。
当然除了上述列明的原因外,还可能存在其他原因。由于这些原因,使得匹配模型估计处理效应并不有效。
3. 匹配的缺陷
其一,匹配不能像随机化那样修正内生性或遗漏变量偏差(然而内生性和遗漏变量偏差是因果推断中的基本问题),也不像回归模型那样是一种“因果推理”方法。
其二,匹配容易受到机会主义模型选择的影响,通过调整自由度,选择特定的匹配方法,选择特定的协变量作为匹配的基础等,机会主义者可以选择一个具有统计学意义的匹配结果。
其三,匹配应该是一种响应:对于特定问题(例如,控制变量以一种不合适的参数估计方式被加到 DGP 中),对于这个问题应在匹配前进行检验。
这主要是因为匹配在建立模型和仿真过程中,混淆了识别和估计。与 OLS 相比,匹配对模型的依赖性较小,但当 OLS 是正确时,匹配的效率较低,OLS 将比匹配更有效 。
连享会计量方法专题……
4. 如何检验处理效应的因果推断?
许多人认为自然实验是检验处理效应因果推断的黄金准则,通过实验室实验可以很容易克服上述问题。例如,可以把一个合适(例如,随机)样本的目标人群进入实验室,把它们分成两组,对其中一组进行处理,小心翼翼地控制两组之间的外在条件,观察并记录在控制组中无法观测到的处理组的平均效应…这样可以很好表明 D 对 Y 具有处理效应,通过实验设计解决了问题 1、2、3、4 和 9 。
但即便是在这些罕见的情况下,也有仍然存在一些问题。也许 D
和 Y 之间的关系取决于环境因素 Z,而在真实环境中 Z 的水平与实验室相比有很大的不同。在真实环境下,由于存在 Z,而导致 D 也许不会影响 Y,甚至可能产生相反的效果!(这是问题 6(外部有效性)批判的核心。)
研究设计和统计模型在如何解决这些阻碍因果推理的问题方面通常面临权衡。例如,在上面的自然实验中,我们以问题 6 为代价减少了问题 1-4 和问题 9 ,但仍没有解决问题 5、7、8。另外, 2SLS 模型旨在通过一个工具变量来解决问题 1 带来的内生性问题,但会增加问题 7 或 8 的影响 (通过一个合适的工具变量, 对 D 和 Y 的关系施加额外的作用)。
让我们用 来表示因果推理中每个潜在的问题。
表示问题集的大小。对于每个问题,我们指定一个概率
,该问题
将以某种方式对推理结果产生不利影响。我们可以想象,不同问题
的
是不同的。例如,即使我们确定 X 和 Y 之间存在某种程度的内生性,我们也不清楚这是否会影响我们得出这样的结论:
,这取决于内生性的性质和强度。但可以肯定会导致我们低估或高估X对Y的影响。
因此,在某些情况下,,但是在大多数情况下
要小得多。现在将所有可能的推理障碍作为一个组来考虑。假设这些障碍彼此无关,相互排斥——实际上它们不是无关的,但这提供了一个很好的上限——我们可以把研究设计过程中产生错误推断的总概率写成:
错误推理的总概率
如果这些事件不是相互排斥的,但是独立发生的,我们就必须写类似于:
错误推理的总概率
对于任何特定的研究,做出不同的研究设计选择都会改变 项。继续上面的例子,我们可能会认为内生性干扰预期推断的概率大约为 1,因此该研究在知识方面来看几乎没有附加价值。因此,我们使用一个带有一个或两个工具变量的 2SLS 估计量。这降低了内生性影响估计量的概率,但是提高了模型依赖或测量问题影响推断结果的概率。因此我们需要权衡比较两者的概率和,尽可能使概率和最小。
在大多数情况下,即使是完美的实验设计和模型选择也不能得到,只能尽可能地期望概率和更小。但是,有一种方法可以将微小但非零的概率降到零:进行一项新的研究。理想情况下,这项新研究的
值与过去的研究完全不相关。当新的研究使用不同的研究设计、不同的数据集,测试基于相同基础理论下的不同预测/假设时,就可能使
。如果我们用
来表示我们进行的研究,当错误的推断是相互排斥的,我们有:
(一)所有推论都有缺陷的总概率
如果所有的概率在 研究中是相互独立的,并且错误推断在研究中是相互排斥的,那么当
上升时,将使得
。
(二)如果错误的推论不是相互排斥的,但是独立于一项研究的,我们有:
所有推论都有缺陷的总概率
所以,如果一项研究有某种设计上的缺陷,从而产生了某种程度上的障碍推断的问题,这并不意味着这项研究没有科学价值。当然,对于一项特定的研究,尽可能降低 值会更好。
简而言之,当我们的因果推断来自于一系列研究,这些研究使用不同的方法处理理论的不同方面时,它们是最可靠的。这些研究相辅相成,因而比各部分的总和更重要。一组有缺陷的研究比一项个体缺陷较少的研究更能提供更好的因果推断,因为我们永远无法完全消除缺陷,但我们可以通过多项研究来否定它们的重要性。如果我们强迫每个单独的研究达到 的某个最小值,我们甚至可能不能解决一些问题。
5. 主要参考文献
- Justin Esarey, 2013, Matching Madness: Causal Inference in Political Methodology, Political Methodology.
关于我们
- 「Stata 连享会」 由中山大学连玉君老师团队创办,定期分享实证分析经验, 公众号:StataChina。
- 公众号推文同步发布于 CSDN 、简书 和 知乎Stata专栏。可在百度中搜索关键词 「Stata连享会」查看往期推文。
- 点击推文底部【阅读原文】可以查看推文中的链接并下载相关资料。
- 欢迎赐稿: 欢迎赐稿。录用稿件达 三篇 以上,即可 免费 获得一期 Stata 现场培训资格。
- E-mail: StataChina@163.com
- 往期推文:计量专题 || 精品课程 || 简书推文 || 公众号合集
网友评论