前面我们针对解释变量的外生与内生问题,引入了“工具变量法”。下面我们来讨论关于方程另一侧的被解释变量的事~
如果解释变量是离散的,并不影响回归,栗子可以举“虚拟变量”;但是若被解释变量是离散的,则就有问题了,我们称此种情形中的模型为“离散选择模型”或“定性反映模型”
1.二值选择模型
最常见的离散选择模型即为二值选择行为
![](https://img.haomeiwen.com/i11013023/9450236b66e73044.png)
- LPM 的优点是:计算方便,容易得到边际效应(即回归系数)。
- LPM 的缺点是:虽然 y的取值非 0 即 1,但根据线性概率模型,所作的预测值却可能出现大于1或小于0的不现实情形
为了使y的预测值介于0和1之间,我们考虑y的两点分布概率
![](https://img.haomeiwen.com/i11013023/8daecc47d9a3ddb2.png)
Probit
![](https://img.haomeiwen.com/i11013023/69dcc64a4f6c9c08.png)
Logit
![](https://img.haomeiwen.com/i11013023/d7d1ed6ab855a3da.png)
Probit 与 Logit 都很常用,二者的估计结果(比如边际效应)通常很接近。
Logit 模型的优势在于,逻辑分布的累积分布函数有解析表达式(标准正态没有),故计算 Logit 更为方便;而且 Logit 的回归系数更易解释其经济意义.
*导入数据集
use titanic.dta, clear
*Logit估计(普通标准误)
logit survive child female class1 class2 class3 [fweight = freq], nolog
*Logit估计(稳健标准误)
logit survive child female class1 class2 class3 [fweight = freq], nolog r
![](https://img.haomeiwen.com/i11013023/2732d90e33619ef5.png)
*Logit估计(普通标准误、几率比)
logit survive child female class1 class2 class3 [fweight = freq], nolog or
![](https://img.haomeiwen.com/i11013023/4928a9746dee3f64.png)
从上表中可以看出,儿童的生存几率比是成年人的约2.89倍,妇女的则是男性的11.25倍,头等舱乘客的则是船员的2.36倍,三等舱乘客是船员的39.8%,二等舱的乘客是85.17%,但是统计上不显著。
*导入数据集
use titanic.dta, clear
*Probit估计(普通标准误)
probit survive child female class1 class2 class3 [fweight = freq], nolog
*Probit估计(稳健标准误)
probit survive child female class1 class2 class3 [fweight = freq], nolog r
![](https://img.haomeiwen.com/i11013023/58d69f89aeba2a2b.png)
2.最大似然估计的原理
上面提到的Probit 与 Logit 都是非线性模型,无法通过变量转换变为线性模型。因此需要新办法来处理,此时我们引入“最大似然估计法”(MLE)
2.1定义
极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值
换句话说,极大似然估计提供了一种给定观察数据来评估模型参数的方法,即:“模型已定,参数未知”。
稍微偏题下,以上可以联想到“概率”和“统计”的区别:
概率是已知模型和参数,推数据。统计是已知数据,推模型和参数
概率研究的问题是,已知一个模型和参数,怎么去预测这个模型产生的结果的特性(例如均值,方差,协方差等)
统计研究的问题则相反。统计是,有一堆数据,要利用这堆数据去预测模型和参数
2.2似然函数
![](https://img.haomeiwen.com/i11013023/cf0de60457fc2bed.png)
![](https://img.haomeiwen.com/i11013023/a7fb89d8fdf2086c.png)
MLE 的思想:给定样本取值后,该样本最可能来自参数为何值的总体。寻找参数估计值,使得观测到样本数据的可能性最大
![](https://img.haomeiwen.com/i11013023/513071ac661ccc7f.png)
但是硬币一般是均匀, 即使做实验发现结果是“反正正正正反正正正反”,但θ=0.7让人无法信服。此时要考虑先验概率(贝叶斯学派的思想),因此引入了最大后验概率估计(MAP)。
2.3比较:最大后验概率估计(MAP)
![](https://img.haomeiwen.com/i11013023/8eb8845ec8715188.png)
![](https://img.haomeiwen.com/i11013023/abb75a35f35dfbb7.png)
最后,那要怎样才能说服一个贝叶斯派相信θ=0.7呢?得多做点实验。
![](https://img.haomeiwen.com/i11013023/e1a5dbfba61a1a81.png)
![](https://img.haomeiwen.com/i11013023/040f632a76eb8c38.png)
一个合理的先验概率假设是很重要的。(通常,先验概率能从数据中直接分析得到)
MAP就是多个作为因子的先验概率P(θ)。或者,也可以反过来,认为MLE是把先验概率P(θ)认为等于1,即认为θ是均匀分布。
2.3求解MLE
由于模型存在非线性, MLE 通常没有解析解,只能寻找“数值解”。一般使用“迭代法” 进行数值求解。常用的迭代法为“高斯-牛顿法”
![](https://img.haomeiwen.com/i11013023/b5332eac732ad688.png)
![](https://img.haomeiwen.com/i11013023/71b0ce3b9c346e92.png)
![](https://img.haomeiwen.com/i11013023/a1b319e6eddbce69.png)
3.回归系数
对于线性模型来说,回归系数的经济意义即解释变量对被解释变量的边际效应。
对于非线性模型来说,回归系数并不是边际效应。
那么边际效应是什么呢?
![](https://img.haomeiwen.com/i11013023/4b700972eb8d4b9f.png)
![](https://img.haomeiwen.com/i11013023/be229d66e13491fa.png)
传统上经常使用样本均值处的边际效应,但对于非线性模型,平均边际效应金或某代表值处的边际效应更有意义。
*导入数据集
use titanic.dta, clear
*Logit估计(普通标准误)
logit survive child female class1 class2 class3 [fweight = freq], nolog
平均边际效应
margins, dydx()
样本均值处的边际效应
margins, dydx() atmeans
![](https://img.haomeiwen.com/i11013023/202c4342e767378d.png)
*计算模型准确预测的比例
estat class
![](https://img.haomeiwen.com/i11013023/046f396f09346ffa.png)
*导入数据集
use titanic.dta, clear
*Probit估计(普通标准误)
probit survive child female class1 class2 class3 [fweight = freq], nolog
平均边际效应
margins, dydx()
样本均值处的边际效应
margins, dydx() atmeans
![](https://img.haomeiwen.com/i11013023/598e593a1272bd31.png)
*计算模型准确预测的比例
estat class
![](https://img.haomeiwen.com/i11013023/42b0f740fab786fd.png)
*Logit估计(普通标准误)
logit survive child female class1 class2 class3 [fweight = freq], nolog
*预测存活概率
predict prob
*Probit估计(普通标准误)
probit survive child female class1 class2 class3 [fweight = freq], nolog
*预测存活概率
predict prob1
*比较相关性
corr prob prob1 [fweight = freq]
![](https://img.haomeiwen.com/i11013023/baa44f69c486f867.png)
那么回归系数有什么意义呢?
![](https://img.haomeiwen.com/i11013023/e23e2654edf0a36f.png)
![](https://img.haomeiwen.com/i11013023/77cedcbc90a1c87e.png)
![](https://img.haomeiwen.com/i11013023/173dea93408b6f42.png)
![](https://img.haomeiwen.com/i11013023/bab3aa7110f89b2f.png)
4.拟合优度
![](https://img.haomeiwen.com/i11013023/eab4cd2d44c3dfc3.png)
![](https://img.haomeiwen.com/i11013023/428b16949ed947b4.png)
5.准最大似然估计
使用最大似然估计(MLE)的前提是对总体的分布函数作出了具体的假定。使用不正确的分布函数所得到的最大似然估计量,称为“准最大似然估计”(QMLE)
QMLE的估计不一定不一致,若线性模型的扰动项服从正态分布,则 MLE 估计量与
OLS 估计量完全相同,而但OLS 估计量的一致性并不依赖于关于分布函数的具体假设。
关于 QMLE 估计量的标准误,可分两种情况考虑:
![](https://img.haomeiwen.com/i11013023/f4fd4be98bc8699a.png)
![](https://img.haomeiwen.com/i11013023/9eea97bfb52c43ea.png)
具体到二值选择模型:
![](https://img.haomeiwen.com/i11013023/8acf80edababfd70.png)
![](https://img.haomeiwen.com/i11013023/82879c429d804330.png)
网友评论