Stata系列-面板数据

作者: 5a41eb2ceec6 | 来源:发表于2018-08-27 23:58 被阅读260次

Stata系列-面板数据
2018-04-17
【Stata】空间DID
用python预处理面板数据
[STATA]面板数据移动平均或方差
Stata数据处理: 面板数据填充和补漏
Pandas 01 数据结构
reghdfe: 多维固定效应估计 (尚未完成)
调入和导入数据
Stata：毕业论文大礼包 A——实证结果输出命令大比拼

之前所分析的数据为截面数据或时间序列，本篇分析的数据为面板数据，即将截面数据和时间序列数据综合起来：横截面维度(n位个体)，又有时间维度(T 个时期)。

短面板和长面板

短面板：T 较小， n较大，在使用大样本理论时让n趋于无穷大
长面板：T 较大， n较小

动态面板和静态面板

动态面板：解释变量包含被解释变量的滞后值
静态面板：解释变量不包含被解释变量的滞后值

平衡面板和非平衡面板

每个时期在样本中的个体完全一样
每个时期在样本中的个体不完全一样

面板数据的优点有：

有助于解决遗漏变量问题
提供更多个体动态行为的信息
样本容量较大：同时有截面与时间维度，面板数据的样本容量通常更大，可提高估计精度

但面板数据也会给研究带来“问题”：样本数据通常不满足 iid 假定，收集成本通常较高…

横截面的异方差与序列的自相关性是运用面板数据模型时可能遇到的最为常见的问题，此时运用OLS可能会产生结果失真。

为了消除影响，例如对我国东、中、西部地区的分析将采用不相关回归方法（SUR）来估计方程。而对于全国范围内的估计来说,由于横截面个数大于时序个数,所以采用截面加权估计法（CSW）
一般而言，面板数据可用固定效应和随机效应估计方法，如此可以极大限度地利用面板数据的优点,尽量减少估计误差
- 如果选择固定效应模型,则利用虚拟变量最小二乘法(LSDV) 进行估计
- 如果选择随机效应模型,则利用可行的广义最小二乘法(FGLS) 进行估计
  至于究竟是采用固定效应还是随机效应,则要看Hausman 检验的结果

1.面板数据的估计策略

将面板看成截面数据进行混合回归，即要求样本中每位个体拥有完全相同的回归方程。混合回归的缺点是，忽略个体不可观测的异质性，而该异质性可能与解释变量相关，导致估计不一致。

为每位个体估计单独的回归方程。分别回归的缺点是，忽略个体的共性，可能没有足够大的样本容量。

实践中常采用折衷的策略，即假定个体的回归方程拥有相同的斜率，但可有不同截距项，以捕捉异质性。

个体效应模型

其他

*导入数据集
use lin_1992.dta, clear
*设定面板数据
xtset province year
*显示数据集结构
xtdes
*显示数据集变量的统计特征
xtsum
*显示ltvfo时间趋势图
xtline ltvfo

ltvfo

2.混合效应模型

就是所有的省份，都是相同，即同一个方程，截距项和斜率项都相同

image.png

虽可假设不同个体的扰动项相互独立，但同一个体在不同时期的扰动项之间往往自相关。每位个体不同时期的所有观测值构成一个“聚类” 。样本观测值可分为不同的聚类，在同一聚类里的观测值互相相关，不同聚类之间的观测值不相关，称为“聚类样本”。
对于聚类样本，仍可进行 OLS 估计，但需使用“聚类稳健的标准误”，形式上也是夹心估计量，表达式更为复杂。

对于样本容量为nT 的平衡面板，共有n个聚类，而每个聚类中包含T 期观测值。使用聚类稳健标准误的前提是，聚类中的观测值数目T 较小，而聚类数目n较大；此时聚类稳健标准误是真实标准误的一致估计。即聚类稳健标准误更适用于时间维度 T 比截面维度n小的短面板。在推导过程中未假定同方差，故聚类稳健标准误也是异方差稳健的。

*导入数据集
use lin_1992.dta, clear
*设定面板数据
xtset province year
*混合回归（聚类稳健标准误）
reg ltvfo ltlan ltwlab ltpow ltfer hrs mipric1 giprice mci ngca,vce(cluster province)
*储存结果
estimates store OLS
*混合回归（普通标准误）
reg ltvfo ltlan ltwlab ltpow ltfer hrs mipric1 giprice mci ngca

混合回归

聚类稳健标准误

普通标准误

对比两个标准误，聚类稳健标准误均大于普通标准误。由于同一省份不同年份的扰动项一般存在自相关，而普通标准误计算方法是假设扰动项为独立同分布，因此普通标准误的估计并不准确。

3.固定效应模型

就是所有省份，既有相同的部分，即斜率项都相同；也有不同的部分，即截距项不同。

固定效应

对于此，解决思路有：通过模型变换，消掉个体效应u_i

思路

*组内估计量
xtreg ltvfo ltlan ltwlab ltpow ltfer hrs mipric1 giprice mci ngca, fe r
*储存结果
estimates store FE_robust

组内估计量

上表中的常数项，是所有个体效应的平均值。最后的rho=0.89表明复合扰动项的方差主要来自个体效应u_i的变动。

应该使用混合回归还是个体固定效应？

可以根据不含r的“xtreg”命令，其结果中的F检验可以给出答案，因为其原假设H₀：所有u_i=0，即混合回归是可以接受的

*组内估计量
xtreg ltvfo ltlan ltwlab ltpow ltfer hrs mipric1 giprice mci ngca, fe
*储存结果
estimates store FE

F检验

由最后一行F检验的p值为0，即强烈拒绝原假设，即认为FE优于混合回归，即应该允许每位个体都有自己的截距项，但是由于没有使用聚类稳健标准误，因此F检验并不有效。

3.1LSDV 法

LSDV

*LSDV法
reg ltvfo ltlan ltwlab ltpow ltfer hrs mipric1 giprice mci ngca i.province, vce(cluster province)
*储存结果
estimates store LSDV

LSDV

由上表可知，不少个体虚拟变量在5%水平上显著，因此可拒绝原假设“所有个体虚拟变量的系数都为0”，即认为存在个体固定效应，不应该使用混合回归

3.2一阶差分法

一阶差分法

*一阶差分法
xtserial ltvfo ltlan ltwlab ltpow ltfer hrs mipric1 giprice mci ngca, output
*储存结果
estimates store FD

一阶差分法

一般认为FE比FD更有效率，因此较少使用FD

3.3时间固定效应

个体固定效应模型解决了不随时间而变但随个体而异的遗漏变量问题。还可能存在不随个体而变，但随时间而变的遗漏变量问题。比如，企业经营的宏观经济环境。

时间固定效应

*双向固定效应
xtreg ltvfo ltlan ltwlab ltpow ltfer hrs mipric1 giprice mci ngca t, fe r
*储存结果
estimates store FE_trend

双向固定效应

对比双向固定效应，如果只考虑个体固定效应，则称为“单向固定效应”，有时候为了节省参数，可以引入一个时间趋势项，来代替T-1个时间虚拟变量，如上面。

理论上如下：

理论

上面的式子隐含的假设是每个时期的时间效应相等，即每个时期均增加γ

如果对于这假定不太把握，则要采取在方程中加时间虚拟变量的做法，通过检验这些时间虚拟变量的联合显著性来判断是否应该使用双向固定效应模型。

*双向固定效应模型
xtreg ltvfo ltlan ltwlab ltpow ltfer hrs mci ngca i.year, fe r

双向固定效应模型

大多数的年度虚拟变量均不显著，即应该使用双向固定效应模型，即应该包含时间固定效应。此外在加入年度虚拟变量后，因为各个省份的mipric1和giprice都一样，因此要剔除，避免严格多重共线性。

4.随机效应模型

随机效应模型

对于此，可以使用“广义离差”的方法

FGLS

*随机效应
xtreg ltvfo ltlan ltwlab ltpow ltfer hrs mci ngca, re r theta
*储存结果
estimates store RE_robust

随机效应

竟使用混合回归，还是个体随机效应模型？Breusch and Pagan (1980)提供了检验个体随机效应的LM 检验，如果拒绝原假设模型中应该包括反映个体特性的随机扰动项，不应该使用混合回归

*LM检验
xttest0

LM检验

上表显示LM强烈拒绝“不存在个体随机效应”的原假设，即应该选择随机效应

此外，对于随机效应模型，如果假设扰动项服从正态分布，则可写出样本的似然函数，然后进行最大似然估计（MLE）

*MLE估计
xtreg ltvfo ltlan ltwlab ltpow ltfer hrs mci ngca, mle nolog
*储存结果
estimates store MLE

MLE估计

最后一行的LR检验强烈拒绝原假设，即认为存在个体随机效应，不应该选择混合回归。

组间估计量

组间估计量

不能在固定效应模型下使用组间估计法。即使在随机效应模型下，由于面板数据被压缩为截面数据，损失较多信息量，组间估计法也不常用

5.拟合优度

拟合优度

6.非平衡面板

在面板数据中，如每个时期在样本中的个体完全一样，称为“平衡面板数据”。但有时某些个体的数据可能缺失(比如，个体死亡、企业倒闭或33被兼并、个体不再参与调查)，或者新个体在后来才加入到调查中来。如每个时期观测到的个体不完全相同，称为“非平衡面板”或“不完全面板” 。

非平衡面板

7.用固定效应还是随机效应模型？

比较

传统的豪斯曼检验不适用于异方差的情形，须使用异方差稳健的豪斯曼检验

*固定效应估计
xtreg ltvfo ltlan ltwlab ltpow ltfer hrs mci ngca, fe
*储存结果
estimates store FE
*随机效应估计
xtreg ltvfo ltlan ltwlab ltpow ltfer hrs mci ngca, re
*储存结果
estimates store RE
*豪斯曼检验
hausman FE RE, constant sigmamore

豪斯曼检验

p值为0，强烈拒绝原假设“u_i与解释变量不相关”，认为应该使用固定效应模型，而非随机效应模型。

传统的豪斯曼检验假定，在H₀成立情况下，随机效应模型最有效率，在异方差情况下不适用

*安装xtoverid
ssc install xtoverid
*随机效应估计
xtreg ltvfo ltlan ltwlab ltpow ltfer hrs mci ngca, re r
*过度识别检验
xtoverid

过度识别检验

p值为0，强烈拒绝随机效应的原假设

参考资料：
对面板数据模型中的一些理解
 面板数据分析方法总结_数据分析

Stata系列-面板数据
之前所分析的数据为截面数据或时间序列，本篇分析的数据为面板数据，即将截面数据和时间序列数据综合起来：横截面维度(n...
2018-04-17
8.【Stata操作视频】面板数据模型2 - 基本操作：描述性分析、画图、生成新变量等网址：https://mp....
【Stata】空间DID
第一步，打开是stata14,安装xsmle(本文使用的是面板数据） ssc install xsmle 第二步，...
用python预处理面板数据
1. 简介最近写论文要用stata做面板回归，需要对原始数据进行预处理。原始数据是各省份的3个指标（Y，K，L）...
[STATA]面板数据移动平均或方差
Stata数据处理: 面板数据填充和补漏
Stata连享会 (知乎 | 简书 | 码云)Stata连享会精彩推文1 || 精彩推文2 Source: h...
Pandas 01 数据结构
一、数据结构 Pandas的三种数据结构：系列(Series) 数据帧(DataFrame) 面板(Panel)...
reghdfe: 多维固定效应估计 (尚未完成)
Stata连享会精彩推文1 || 精彩推文2 目前使用最多的面板数据模型仍然是固定效应模型 (FE)，最一般的...
调入和导入数据
调入 Stata 格式的数据调入 Stata 官方自带数据文件打开文件 , 要写全后缀导入 Excel 数据...
Stata：毕业论文大礼包 A——实证结果输出命令大比拼
Stata 结果输出系列推文：Stata：毕业论文大礼包 A——实证结果输出命令大比拼Stata：毕业论文大礼包 ...