美文网首页计量经济学Stata小小白
Stata系列-关于被解释变量(二值选择模型)

Stata系列-关于被解释变量(二值选择模型)

作者: 5a41eb2ceec6 | 来源:发表于2018-08-25 09:49 被阅读205次

前面我们针对解释变量的外生与内生问题,引入了“工具变量法”。下面我们来讨论关于方程另一侧的被解释变量的事~

如果解释变量是离散的,并不影响回归,栗子可以举“虚拟变量”;但是若被解释变量是离散的,则就有问题了,我们称此种情形中的模型为“离散选择模型”或“定性反映模型”

1.二值选择模型

最常见的离散选择模型即为二值选择行为

LPM
  • LPM 的优点是:计算方便,容易得到边际效应(即回归系数)。
  • LPM 的缺点是:虽然 y的取值非 0 即 1,但根据线性概率模型,所作的预测值却可能出现大于1或小于0的不现实情形

为了使y的预测值介于0和1之间,我们考虑y的两点分布概率

两点分布概率

Probit

Probit

Logit

Logit

Probit 与 Logit 都很常用,二者的估计结果(比如边际效应)通常很接近。
Logit 模型的优势在于,逻辑分布的累积分布函数有解析表达式(标准正态没有),故计算 Logit 更为方便;而且 Logit 的回归系数更易解释其经济意义.

*导入数据集
use titanic.dta, clear
*Logit估计(普通标准误)
logit survive child female class1 class2 class3 [fweight = freq], nolog
*Logit估计(稳健标准误)
logit survive child female class1 class2 class3 [fweight = freq], nolog r

Logit估计

*Logit估计(普通标准误、几率比)
logit survive child female class1 class2 class3 [fweight = freq], nolog or

Logit估计

从上表中可以看出,儿童的生存几率比是成年人的约2.89倍,妇女的则是男性的11.25倍,头等舱乘客的则是船员的2.36倍,三等舱乘客是船员的39.8%,二等舱的乘客是85.17%,但是统计上不显著。

*导入数据集
use titanic.dta, clear
*Probit估计(普通标准误)
probit survive child female class1 class2 class3 [fweight = freq], nolog
*Probit估计(稳健标准误)
probit survive child female class1 class2 class3 [fweight = freq], nolog r

Probit估计

2.最大似然估计的原理

上面提到的Probit 与 Logit 都是非线性模型,无法通过变量转换变为线性模型。因此需要新办法来处理,此时我们引入“最大似然估计法”(MLE)

2.1定义

极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值
换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”

稍微偏题下,以上可以联想到“概率”和“统计”的区别:
概率是已知模型和参数,推数据。统计是已知数据,推模型和参数
概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等)
统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数

2.2似然函数

似然函数 似然函数

MLE 的思想:给定样本取值后,该样本最可能来自参数为何值的总体。寻找参数估计值,使得观测到样本数据的可能性最大

例子

但是硬币一般是均匀, 即使做实验发现结果是“反正正正正反正正正反”,但θ=0.7让人无法信服。此时要考虑先验概率(贝叶斯学派的思想),因此引入了最大后验概率估计(MAP)。

2.3比较:最大后验概率估计(MAP)

MAP MAP

最后,那要怎样才能说服一个贝叶斯派相信θ=0.7呢?得多做点实验。

MAP MAP

一个合理的先验概率假设是很重要的。(通常,先验概率能从数据中直接分析得到)

MAP就是多个作为因子的先验概率P(θ)。或者,也可以反过来,认为MLE是把先验概率P(θ)认为等于1,即认为θ是均匀分布。

2.3求解MLE

由于模型存在非线性, MLE 通常没有解析解,只能寻找“数值解”。一般使用“迭代法” 进行数值求解。常用的迭代法为“高斯-牛顿法”

高斯-牛顿法 思路 注意

3.回归系数

对于线性模型来说,回归系数的经济意义即解释变量对被解释变量的边际效应。
对于非线性模型来说,回归系数并不是边际效应。

那么边际效应是什么呢?

边际效应 边际效应

传统上经常使用样本均值处的边际效应,但对于非线性模型,平均边际效应金或某代表值处的边际效应更有意义。

*导入数据集
use titanic.dta, clear
*Logit估计(普通标准误)
logit survive child female class1 class2 class3 [fweight = freq], nolog
平均边际效应
margins, dydx(
)
样本均值处的边际效应
margins, dydx(
) atmeans

边际效应

*计算模型准确预测的比例
estat class

比例

*导入数据集
use titanic.dta, clear
*Probit估计(普通标准误)
probit survive child female class1 class2 class3 [fweight = freq], nolog
平均边际效应
margins, dydx(
)
样本均值处的边际效应
margins, dydx(
) atmeans

边际效应

*计算模型准确预测的比例
estat class

比例

*Logit估计(普通标准误)
logit survive child female class1 class2 class3 [fweight = freq], nolog
*预测存活概率
predict prob
*Probit估计(普通标准误)
probit survive child female class1 class2 class3 [fweight = freq], nolog
*预测存活概率
predict prob1
*比较相关性
corr prob prob1 [fweight = freq]

相关性

那么回归系数有什么意义呢?

回归系数 回归系数 回归系数 回归系数

4.拟合优度

拟合优度 拟合优度

5.准最大似然估计

使用最大似然估计(MLE)的前提是对总体的分布函数作出了具体的假定。使用不正确的分布函数所得到的最大似然估计量,称为“准最大似然估计”(QMLE)

QMLE的估计不一定不一致,若线性模型的扰动项服从正态分布,则 MLE 估计量与
OLS 估计量完全相同,而但OLS 估计量的一致性并不依赖于关于分布函数的具体假设。

关于 QMLE 估计量的标准误,可分两种情况考虑:

1 2

具体到二值选择模型:


1
2

参考资料:
一文搞懂极大似然估计
详解最大似然估计(MLE)、最大后验概率估计(MAP),以及贝叶斯公式的理解

相关文章

网友评论

    本文标题:Stata系列-关于被解释变量(二值选择模型)

    本文链接:https://www.haomeiwen.com/subject/wmhpiftx.html