作者: 武翰涛 (南京邮电大学)
Stata 连享会: 知乎 | 简书 | 码云 | CSDN | StataChina公众号
点击查看完整推文列表
2020寒假Stata现场班2020寒假Stata现场班 (北京, 1月8-17日,连玉君-江艇主讲)
「+助教招聘」
1. 引言
在多数实证分析中,我们关注的焦点都在于考察解释变量 对被解释变量 的影响,其思想是从平均数的角度去分析得到参数结果,即均值回归。但均值回归往往会受到极端值的影响,使得参数估计变得很不稳定 (在执行分组回归时这一问题尤其突出)。另一方面,基于 OLS 的线性回归模型只能让我们分析 对 的平均影响效果。而当,条件分布 不是对称分布时,条件期望 很难反映整个条件分布的全貌。如果能估计条件分布 的若干重要条件分布,就能对条件分布 有更全面的认识[1]。
2 分位数回归模型
2.1 总体分位数
假设 为连续型随机变量,其累积分布函数为 ,则 的“总体 分位数”,记为 ,满足以下定义式:
即总体 分位数正好将总体分布分为两部分,其中小于或等于 的概率为,而大于 的概率为 。如果 则为中位数,正好将总体分为两个相等的部分,一半在中位数之上,而另一半在中位数之下。如果 严格单调递增,则有
其中, 为 的逆函数。
对于回归模型而言,记条件分布 的累积分布函数为 。条件分布 的总体 分位数,记为 ,满足以下定义式:
假设严格单调递增,则有
由于条件累积分布函数 依赖于 ,故条件分布 的总体 分位数 也依赖于 ,可以明确地写为 ,称为 ”条件分位数函数“。换言之,条件分位数函数 是解释变量 的函数。更进一步,对于线性回归模型而言,如果扰动项满足同方差的假定,或扰动项异方差的形式为乘积形式,则 是 的线性函数[2]。
2.2 样本分位数
对于随机变量 ,如果总体的q分位数 未知,则可以使用样本 分位数 来估计 。通常的做法是,首先将样本数据 按照从小到大的顺序排列为 ,则 等于第 个最小观测值,其中 为样本容量, 表示大于或等于nq并离nq最近的正整数。比如n=95,q=0.5,则 [3]。
但上述样本分位数的计算方法不容易推广到回归模型。因此,一种更方便的等价方法便是将样本分位数看成某个最小化的解。事实上,样本均值也可以看成是最小化残差问题的最优解,即:
类似地,样本中位数可以视为是"最小化残差绝对值之和"问题的最优解,即:
连享会计量方法专题……
2.3 分位数估计方法
分位数回归方法 (QR) 最早由 Koenker,Bassett 提出,是基于反应变量 的条件分布来估计应变量 参数的线性回归方法,即根据不同分位点利用样本含有的不同信息对模型进行回归分析。鉴于最小二乘法的最优估计要求模型的随机扰动项服从独立同分布,而分位数回归不对模型做任何分布假设,且不对矩函数有任何要求,这就非常适合部分不存在阶矩函数的数据,即可能存在的异常数据不会影响到模型的参数估计。因此用分位数回归来研究宏观金融等数据是非常稳健的,且能够较好地捕捉分布的尖峰厚尾特征,从而满足不同条件分析的需求。
设 在随机变量 下 的条件分布函数,则 的第 个条件分布数为:
式中 是下确界函数。
对于观测样本 为向量 的维数。如果在 下 的 条件分位数为 的线性函数,即,这里的 表示转置, 为系数向量,则系数向量 的分位数估计值为:
式中:
称为线性损失函数。
分位数回归估计式 (2) 等价于下面的式 (3) :
显然,分位点不同时估算出的模型参数也不同,因而可以得到不同的回归方程,决策者可以从中选出最贴近实际问题的回归方程。
连享会计量方法专题……
3 Stata 范例
我们可以使用 qreg
命令来实现分位数回归模型,这里我们使用 Stata 自带的数据 auto.dta。
首先进行中位数回归:
. sysuse "auto.dta", clear
(1978 Automobile Data)
. qreg price mpg rep78 headroom trunk weight length
Iteration 1: WLS sum of weighted deviations = 54582.043
…… (output omitted)
Iteration 6: sum of abs. weighted deviations = 52754.926
Median regression Number of obs = 69
Raw sum of deviations 65163 (about 5079)
Min sum of deviations 52754.93 Pseudo R2 = 0.1904
------------------------------------------------------------------------------
price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
mpg | -20.44398 100.1651 -0.20 0.839 -220.6711 179.7831
rep78 | 766.3722 380.1109 2.02 0.048 6.541433 1526.203
headroom | -527.2818 525.7287 -1.00 0.320 -1578.199 523.635
trunk | 108.3175 131.2516 0.83 0.412 -154.0507 370.6857
weight | 4.197336 1.385672 3.03 0.004 1.427417 6.967255
length | -88.23944 51.85082 -1.70 0.094 -191.8878 15.40887
_cons | 7474.973 7400.575 1.01 0.316 -7318.566 22268.51
-----------------------------------------------------------------------------```
有上述结果可知,mpg 每增加一单位,会使价格中位数降低 20.44 个单位,即当汽车每加仑能行走的公里数提高一个单位,中档价位的汽车便会降低20.44个单位,但统计结果上并不显著。
下面使用自助法来计算分位数回归的标准误。为便于复制结果,指定随机数的种子。
. set seed 10000 // 设定种子值
. bsqreg price mpg rep78 headroom trunk weight length, reps(400) q(0.5)
(fitting base model)
Bootstrap replications (400)
----+--- 1 ---+--- 2 ---+--- 3 ---+--- 4 ---+--- 5
.................................................. 50
................. (output omitted)
.................................................. 400
Median regression, bootstrap(400) SEs Number of obs = 69
Raw sum of deviations 65163 (about 5079)
Min sum of deviations 52754.93 Pseudo R2 = 0.1904
------------------------------------------------------------------------------
price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
mpg | -20.44398 87.80782 -0.23 0.817 -195.9693 155.0814
rep78 | 766.3722 414.1785 1.85 0.069 -61.55878 1594.303
headroom | -527.2818 341.1344 -1.55 0.127 -1209.2 154.6362
trunk | 108.3175 99.74076 1.09 0.282 -91.06144 307.6964
weight | 4.197336 3.256015 1.29 0.202 -2.311345 10.70602
length | -88.23944 90.8892 -0.97 0.335 -269.9244 93.44548
_cons | 7474.973 8075.536 0.93 0.358 -8667.793 23617.74
-----------------------------------------------------------------------------
进一步地,考察 0.25、0.5、0.75 分位点上的回归结果:
. sqreg price mpg rep78 headroom trunk weight length, q(0.25 0.5 0.75) reps(400)
(fitting base model)
Bootstrap replications (400)
----+--- 1 ---+--- 2 ---+--- 3 ---+--- 4 ---+--- 5
.................................................. 50
(output omitted)
.................................................. 400
Simultaneous quantile regression Number of obs = 69
bootstrap(400) SEs .25 Pseudo R2 = 0.1953
.50 Pseudo R2 = 0.1904
.75 Pseudo R2 = 0.3665
------------------------------------------------------------------------------
| Bootstrap
price | Coef. Std. Err. t P>|t| [95% Conf. Interval]
-------------+----------------------------------------------------------------
q25 |
mpg | -58.85941 60.6889 -0.97 0.336 -180.1748 62.45596
rep78 | 378.5492 182.5255 2.07 0.042 13.68592 743.4125
headroom | -428.4049 177.6041 -2.41 0.019 -783.4304 -73.37946
trunk | 157.9781 53.96136 2.93 0.005 50.11082 265.8453
weight | .8091042 1.739727 0.47 0.644 -2.668561 4.28677
length | -24.49825 47.20241 -0.52 0.606 -118.8545 69.85801
_cons | 5805.491 4010.312 1.45 0.153 -2211.008 13821.99
-------------+----------------------------------------------------------------
q50 |
mpg | -20.44398 98.12396 -0.21 0.836 -216.591 175.703
rep78 | 766.3722 410.5124 1.87 0.067 -54.23035 1586.975
headroom | -527.2818 316.1929 -1.67 0.100 -1159.342 104.7788
trunk | 108.3175 100.5004 1.08 0.285 -92.57998 309.215
weight | 4.197336 3.346488 1.25 0.214 -2.492198 10.88687
length | -88.23944 93.76858 -0.94 0.350 -275.6802 99.20127
_cons | 7474.973 8158.464 0.92 0.363 -8833.564 23783.51
-------------+----------------------------------------------------------------
q75 |
mpg | -158.3163 115.8176 -1.37 0.177 -389.8324 73.19971
rep78 | 1453.687 447.9351 3.25 0.002 558.2771 2349.096
headroom | -837.2497 580.2633 -1.44 0.154 -1997.18 322.6801
trunk | 90.09523 136.9239 0.66 0.513 -183.6118 363.8023
weight | 7.364424 2.936931 2.51 0.015 1.493583 13.23527
length | -185.4982 95.92216 -1.93 0.058 -377.2439 6.247448
_cons | 19508.66 10929.18 1.79 0.079 -2338.458 41355.77
-----------------------------------------------------------------------------```
将分位数回归系数随着分位数的变化情形画图表示,则有:
. qui bsqreg price mpg rep78 headroom trunk weight length,reps(400) q(0.5)
. qrqreg, cons ci ols olci
连享会计量方法专题……
参考资料
「Source[1]:分位数回归理论及其应用」
「Source[2]:高级计量经济学及Stata应用」
「Source[3]:分位数回归及应用简介
关于我们
- 「Stata 连享会」 由中山大学连玉君老师团队创办,定期分享实证分析经验, 公众号:StataChina。
- 公众号推文同步发布于 CSDN 、简书 和 知乎Stata专栏。可在百度中搜索关键词 「Stata连享会」查看往期推文。
- 点击推文底部【阅读原文】可以查看推文中的链接并下载相关资料。
- 欢迎赐稿: 欢迎赐稿。录用稿件达 三篇 以上,即可 免费 获得一期 Stata 现场培训资格。
- E-mail: StataChina@163.com
- 往期推文:计量专题 || 精品课程 || 简书推文 || 公众号合集
欢迎加入Stata连享会(公众号: StataChina)
网友评论