不同与 Complete Randomize 的研究方法, Fully Blocked 方法更加稳定。 Fully Blocked 引申出三种 可以用于 Observational Research 的 matching method. 利用Matching 可以找到隐藏在 Observational Research 中的 Randomized Experiment
0 Matching 的核心思想
- 创造出一种“距离”, 用来测量 control observation 和 treatment observation 的距离。
- 对近距离的 C-T 配对, 之后可以用来 Compare
以下三种方法,主要是在计算距离时方法不同。
1 Mahalanobis Distance Matching
- 使用 Mahalanobis 距离, 和欧式距离很像, 但是 指的是对值做一下标准化
- 有最长距离限制,超过最长距离的 maching 都会被 pruned 掉
- 没有配上对的 C, T全部扔掉
- 剩下的C-T 对就可以用来做分析
2 Corasened Exact Matching
- 不计算距离,但是对连续的 Feature 进行bin, 被分在同一个 grid 中的CT 视为可以配对的observation。
- bin 的大小, 看实际需求, 可以调整bin 的大小。
- 没有配对的 C, T 会被丢掉。
- Compare 的时候, 不用bin, 还用原来的数值。 bin 只用来分组
3 Propensity Score Matching
- 利用 Propensity Score 来计算距离
- 用不到, 匹配不上的 observation 全部丢弃
- 距离过大的 pair 丢弃
- 实际是把高维数据映射到1维
- 距离近C,T 以随机方式分组
- 是一个次优的matching
- 实际中最常用的 matching (可能是可以打破 high dimension curse)
摘录自
https://www.youtube.com/watch?t=910&v=tvMyjDi4dyg&feature=youtu.be
网友评论