天鹰(中南财大——博士研究生)
E-mail: yanbinglh@163.com
1 PSM介绍
倾向得分匹配法(PSM)作为一种解决内生性的方法,被广泛应用在研究某项治疗、政策、或者其他事件的影响因素上。比如我们想研究读研究生对收入的影响,如果简单地将是否读研这个事件作为虚拟变量,而对总体进行回归的话,参数估计就会产生偏误。因为在这样的情况下,我们只观察到了某个人读研后的收入水平,并将其与其他没有读研的人的收入水平作对比。这样的比较显然是不科学的,因为我们比较的这两个人可能在年龄,智力水平,社会阅历,家庭背景等多方面本身就存在着差异,因此会导致选择偏误。假如我们可以让这个人穿越到过去,让他重新选择不读研,然后观测他的收入水平,并将其与现在读研后的收入水平作对比,从理论上讲可以降低选择偏误,然而这种方法却是不现实的。因此我们可以采用倾向得分匹配,将可以观测的一些因素综合起来估计一个人读研的概率,再将概率相近的对象匹配起来以此降低非随机实验的选择偏误。
2 PSM主要假设条件和匹配方法
一、PSM主要假设条件
A. 共同支撑假设(common support)
共同支撑假设要求处理组和控制组样本特征分布有一定的重叠以保证匹配质量。即需要满足pscore[处理组]min<=pscore<=pscore[控制组]max 。
B. 平行假设(balancing)
平行假设要求匹配过后的处理组和控制组偏差(bias)在5%以下 ,或者是T-test检验结果显示匹配过后的处理组和控制组无显著差异。
二、PSM匹配方法
Stata提供了以下几种倾向得分匹配方法:
-
k近邻匹配(k-Nearest neighbors matching),即寻找倾向得分最近的k个不同组个体。其中k=1则为一对一匹配(One-to-one matching);
-
卡尺匹配(Caliper matching)或半径匹配(Radius matching),即限定某个绝对距离值进行倾向得分匹配;
-
核匹配(Kernel matching),通过指定带宽h带入核函数计算权重进行匹配;
-
局部线性回归匹配(Local linear regression matching),通过局部线性回归来估计权重进行匹配;
-
样条匹配(Spline matching),使用“三次样条”来估计权重进行匹配。
在实际进行匹配时,我们应根据具体数据的样本量,数据性质等选择匹配方法,并可尝试同时使用不同的匹配方法对实证结果进行检验。
3 PSM在Stata中的应用
在Stata中进行倾向得分匹配主要由以下步骤组成:
- 进行logit或probit回归
logit/probit Treat X1-Xk
具体来说,在上述的读研对收入的影响研究中,Treat变量即是否读研的虚拟变量,X1-Xk即决定一个人读研概率的一些可观测因素,如年龄,智力水平,社会阅历,家庭背景等。
- 计算倾向得分值
predict ps_logit/ps_probit if e(sample)
- 验证样本是否满足共同支撑假设(具体标准见上部分介绍)
psgraph
- 根据PS值配对(一对一/一对多)——以卡尺内的k近邻匹配为例
psmatch2 Treat X1-Xk, outcome(y) neighbor(k) caliper(real) noreplacement
其中neighbor(k)表示进行k近邻匹配,caliper(real)用来指定卡尺,选项noreplacement表示无放回匹配。
- 检验样本是否满足平行假设(具体标准见上部分介绍)
pstest X1-Xk, both
- 比较处理组和控制组的差异,进行后续统计分析
在上述的读研对收入的影响研究中,通过步骤1-5已经完成匹配对象的选择,本步就可以做处理组和控制组的收入水平比较等后续统计分析工作。
除了以上的一些PSM的基本命令,我们还可以通过“ssc install psmatch2, replace”命令随时关注倾向得分匹配命令的更新。
网友评论