Stata系列-关于被解释变量（二值选择模型）

作者: 5a41eb2ceec6 | 来源:发表于2018-08-25 09:49 被阅读205次

Stata系列-关于被解释变量（二值选择模型）
Stata系列-关于解释变量（工具变量法）
Stata系列-如何确定解释变量个数
Stata系列-关于虚拟变量
SPSS的logistic回归分析中因变量、协变量及选择变量是什
学习笔记DID（其一）
第三回一元线性回归
03 一元线性回归
时间序列-联立方程模型若干基本概念
时间序列|联立方程模型若干基本概念

前面我们针对解释变量的外生与内生问题，引入了“工具变量法”。下面我们来讨论关于方程另一侧的被解释变量的事~

如果解释变量是离散的，并不影响回归，栗子可以举“虚拟变量”；但是若被解释变量是离散的，则就有问题了，我们称此种情形中的模型为“离散选择模型”或“定性反映模型”

1.二值选择模型

最常见的离散选择模型即为二值选择行为

LPM

LPM 的优点是：计算方便，容易得到边际效应(即回归系数)。
LPM 的缺点是：虽然 y的取值非 0 即 1，但根据线性概率模型，所作的预测值却可能出现大于1或小于0的不现实情形

为了使y的预测值介于0和1之间，我们考虑y的两点分布概率

两点分布概率

Probit

Probit

Logit

Logit

Probit 与 Logit 都很常用，二者的估计结果(比如边际效应)通常很接近。
Logit 模型的优势在于，逻辑分布的累积分布函数有解析表达式(标准正态没有)，故计算 Logit 更为方便；而且 Logit 的回归系数更易解释其经济意义.

*导入数据集
use titanic.dta, clear
*Logit估计（普通标准误）
logit survive child female class1 class2 class3 [fweight = freq], nolog
*Logit估计（稳健标准误）
logit survive child female class1 class2 class3 [fweight = freq], nolog r

Logit估计

*Logit估计（普通标准误、几率比）
logit survive child female class1 class2 class3 [fweight = freq], nolog or

Logit估计

从上表中可以看出，儿童的生存几率比是成年人的约2.89倍，妇女的则是男性的11.25倍，头等舱乘客的则是船员的2.36倍，三等舱乘客是船员的39.8%，二等舱的乘客是85.17%，但是统计上不显著。

*导入数据集
use titanic.dta, clear
*Probit估计（普通标准误）
probit survive child female class1 class2 class3 [fweight = freq], nolog
*Probit估计（稳健标准误）
probit survive child female class1 class2 class3 [fweight = freq], nolog r

Probit估计

2.最大似然估计的原理

上面提到的Probit 与 Logit 都是非线性模型，无法通过变量转换变为线性模型。因此需要新办法来处理，此时我们引入“最大似然估计法”（MLE）

2.1定义

极大似然估计，通俗理解来说，就是利用已知的样本结果信息，反推最具有可能（最大概率）导致这些样本结果出现的模型参数值
换句话说，极大似然估计提供了一种给定观察数据来评估模型参数的方法，即：“模型已定，参数未知”。

稍微偏题下，以上可以联想到“概率”和“统计”的区别：
概率是已知模型和参数，推数据。统计是已知数据，推模型和参数
概率研究的问题是，已知一个模型和参数，怎么去预测这个模型产生的结果的特性（例如均值，方差，协方差等）
统计研究的问题则相反。统计是，有一堆数据，要利用这堆数据去预测模型和参数

2.2似然函数

似然函数

MLE 的思想：给定样本取值后，该样本最可能来自参数为何值的总体。寻找参数估计值，使得观测到样本数据的可能性最大

例子

但是硬币一般是均匀，即使做实验发现结果是“反正正正正反正正正反”，但θ=0.7让人无法信服。此时要考虑先验概率（贝叶斯学派的思想)，因此引入了最大后验概率估计（MAP）。

2.3比较：最大后验概率估计（MAP）

MAP

最后，那要怎样才能说服一个贝叶斯派相信θ=0.7呢？得多做点实验。

MAP

一个合理的先验概率假设是很重要的。（通常，先验概率能从数据中直接分析得到）

MAP就是多个作为因子的先验概率P(θ)。或者，也可以反过来，认为MLE是把先验概率P(θ)认为等于1，即认为θ是均匀分布。

2.3求解MLE

由于模型存在非线性， MLE 通常没有解析解，只能寻找“数值解”。一般使用“迭代法” 进行数值求解。常用的迭代法为“高斯-牛顿法”

高斯-牛顿法

思路

注意

3.回归系数

对于线性模型来说，回归系数的经济意义即解释变量对被解释变量的边际效应。
对于非线性模型来说，回归系数并不是边际效应。

那么边际效应是什么呢？

边际效应

传统上经常使用样本均值处的边际效应，但对于非线性模型，平均边际效应金或某代表值处的边际效应更有意义。

*导入数据集
use titanic.dta, clear
*Logit估计（普通标准误）
logit survive child female class1 class2 class3 [fweight = freq], nolog
平均边际效应
margins, dydx()
样本均值处的边际效应
margins, dydx() atmeans

边际效应

*计算模型准确预测的比例
estat class

比例

*导入数据集
use titanic.dta, clear
*Probit估计（普通标准误）
probit survive child female class1 class2 class3 [fweight = freq], nolog
平均边际效应
margins, dydx()
样本均值处的边际效应
margins, dydx() atmeans

边际效应

*计算模型准确预测的比例
estat class

比例

*Logit估计（普通标准误）
logit survive child female class1 class2 class3 [fweight = freq], nolog
*预测存活概率
predict prob
*Probit估计（普通标准误）
probit survive child female class1 class2 class3 [fweight = freq], nolog
*预测存活概率
predict prob1
*比较相关性
corr prob prob1 [fweight = freq]