美文网首页stata学习
Stata: 分位数回归简介

Stata: 分位数回归简介

作者: stata连享会 | 来源:发表于2019-11-06 09:42 被阅读0次

作者: 武翰涛 (南京邮电大学)

Stata 连享会: 知乎 | 简书 | 码云 | CSDN | StataChina公众号

Stata连享会   计量专题 || 精品课程 || 简书推文 || 公众号合集

点击查看完整推文列表

2020寒假Stata现场班 (北京, 1月8-17日,连玉君-江艇主讲)

「+助教招聘」

2020寒假Stata现场班

1. 引言

在多数实证分析中,我们关注的焦点都在于考察解释变量 x 对被解释变量 y 的影响,其思想是从平均数的角度去分析得到参数结果,即均值回归。但均值回归往往会受到极端值的影响,使得参数估计变得很不稳定 (在执行分组回归时这一问题尤其突出)。另一方面,基于 OLS 的线性回归模型只能让我们分析 xy 的平均影响效果。而当,条件分布 y|x 不是对称分布时,条件期望 \mathrm{E}(y | x) 很难反映整个条件分布的全貌。如果能估计条件分布 y|x 的若干重要条件分布,就能对条件分布 y|x 有更全面的认识[1]。

2 分位数回归模型

2.1 总体分位数

假设 Y 为连续型随机变量,其累积分布函数为 F_{y}(\cdot),则 Y 的“总体 q 分位数”,记为 y_{q},满足以下定义式:

q=\mathrm{P}\left(Y \leqslant y_{q}\right)=F_{y}\left(y_{q}\right)

即总体 q 分位数y_{q}正好将总体分布分为两部分,其中小于或等于 y_{q} 的概率为q,而大于 y_{q} 的概率为 (1-q)。如果 q=1/2 则为中位数,正好将总体分为两个相等的部分,一半在中位数之上,而另一半在中位数之下。如果 F_{y}(\cdot) 严格单调递增,则有

y_{q}=F_{y}^{-1}(q)

其中,F_{y}^{-1}(\cdot)F_{y}(\cdot) 的逆函数。

对于回归模型而言,记条件分布 y | x 的累积分布函数为 F_{y | x}(\cdot)。条件分布 y | x 的总体 q 分位数,记为 y_{q},满足以下定义式:

q=F_{y 1 x}\left(y_{q}\right)

假设F_{y | x}(\cdot)严格单调递增,则有

y_{q}=F_{y | x}^{-1}(q)

由于条件累积分布函数 F_{y | x}(\cdot) 依赖于 x,故条件分布 y | x 的总体 q 分位数 y_{q} 也依赖于 x,可以明确地写为 y_{q}(x),称为 ”条件分位数函数“。换言之,条件分位数函数 y_{q}(x) 是解释变量 x 的函数。更进一步,对于线性回归模型而言,如果扰动项满足同方差的假定,或扰动项异方差的形式为乘积形式,则 y_{q}(x)x 的线性函数[2]。

2.2 样本分位数

对于随机变量 Y ,如果总体的q分位数 y_{q} 未知,则可以使用样本 q 分位数 \hat{y}_{q} 来估计 y_{q} 。通常的做法是,首先将样本数据 \left\{y_{1}, y_{2}, \cdots, y_{n}\right\} 按照从小到大的顺序排列为 \left\{y_{(1)}, y_{(2)}, \cdots, y_{(n)}\right\} ,则 \hat{y}_{q} 等于第 [n q] 个最小观测值,其中 n 为样本容量, [n q] 表示大于或等于nq并离nq最近的正整数。比如n=95,q=0.5,则 [n q]=[95 \times 0.5]=[47.5]=48 [3]。
但上述样本分位数的计算方法不容易推广到回归模型。因此,一种更方便的等价方法便是将样本分位数看成某个最小化的解。事实上,样本均值也可以看成是最小化残差问题的最优解,即:

\min _{\mu} \sum_{i=1}^{n}\left(y_{i}-\mu\right)^{2} \Rightarrow \mu=\bar{y}=\frac{1}{n} \sum_{i=1}^{n} y_{i}

类似地,样本中位数可以视为是"最小化残差绝对值之和"问题的最优解,即:

\min _{\mu} \sum_{i=1}^{n}\left|y_{i}-\mu\right| \Rightarrow \mu=\operatorname{median}\left\{y_{1}, y_{2}, \cdots, y_{n}\right\}

连享会计量方法专题……

2.3 分位数估计方法

分位数回归方法 (QR) 最早由 Koenker,Bassett 提出,是基于反应变量 Y 的条件分布来估计应变量 X 参数的线性回归方法,即根据不同分位点利用样本含有的不同信息对模型进行回归分析。鉴于最小二乘法的最优估计要求模型的随机扰动项服从独立同分布,而分位数回归不对模型做任何分布假设,且不对矩函数有任何要求,这就非常适合部分不存在阶矩函数的数据,即可能存在的异常数据不会影响到模型的参数估计。因此用分位数回归来研究宏观金融等数据是非常稳健的,且能够较好地捕捉分布的尖峰厚尾特征,从而满足不同条件分析的需求。

F_{y_{\mathrm{X}}}(\mathrm{y}) 在随机变量 XY 的条件分布函数,则 Y 的第\tau \in(0,1) 个条件分布数为:

Q_{z}(y | x)=\inf _{y}\left\{y: F_{Y | x}(y) \geq \tau\right\} \qquad (1)

式中 \inf (\cdot) 是下确界函数。
对于观测样本 \left(X_{i}, Y_{i}\right) \in R_{p} \times R_{1}, i=1,2, \cdots, n, p 为向量 X_{i} 的维数。如果在 X_{i}Y_{i}\tau 条件分位数为 X_{i} 的线性函数,即Q_{z}\left(Y_{i} | X_{i}\right)=X_{i}^{T} \beta(\tau),这里的 T 表示转置,\beta(\tau) \in R_{p} 为系数向量,则系数向量 \beta(\tau) 的分位数估计值为:

\hat{\beta}(\tau)=\arg \min _{\beta \in R_{p}} \sum_{i=1}^{n} \rho_{\tau}\left(Y_{i}-X_{i}^{T} \beta(\tau)\right) \qquad (2)

式中:

\rho _ { \tau } ( u ) = \left\{ \begin{array} { l l } { \tau u , } & { u \geq 0 } \\ { ( \tau - 1 ) u , } & { u < 0 } \end{array} \right.

称为线性损失函数。
分位数回归估计式 (2) 等价于下面的式 (3) :

\hat { \beta } ( \tau ) = \arg \min _ { \xi \in R } \left( \sum _ { i Y _ { i } \geq X _ { 1 } ^ { T } \beta } \tau \left| Y _ { i } - X _ { i } ^ { T } \beta \right| + \sum _ { i Y _ { i } < X _ { 1 } ^ { T } \beta } ( 1 - \tau ) \left| Y _ { i } - X _ { i } ^ { T } \beta \right| \right)

显然,分位点不同时估算出的模型参数也不同,因而可以得到不同的回归方程,决策者可以从中选出最贴近实际问题的回归方程。

连享会计量方法专题……

3 Stata 范例

我们可以使用 qreg 命令来实现分位数回归模型,这里我们使用 Stata 自带的数据 auto.dta

首先进行中位数回归:

. sysuse "auto.dta", clear
(1978 Automobile Data)

. qreg price mpg rep78 headroom trunk weight length
Iteration  1:  WLS sum of weighted deviations =  54582.043
…… (output omitted)
Iteration  6: sum of abs. weighted deviations =  52754.926

Median regression                                   Number of obs =         69
  Raw sum of deviations    65163 (about 5079)
  Min sum of deviations 52754.93                    Pseudo R2     =     0.1904

------------------------------------------------------------------------------
       price |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         mpg |  -20.44398   100.1651    -0.20   0.839    -220.6711    179.7831
       rep78 |   766.3722   380.1109     2.02   0.048     6.541433    1526.203
    headroom |  -527.2818   525.7287    -1.00   0.320    -1578.199     523.635
       trunk |   108.3175   131.2516     0.83   0.412    -154.0507    370.6857
      weight |   4.197336   1.385672     3.03   0.004     1.427417    6.967255
      length |  -88.23944   51.85082    -1.70   0.094    -191.8878    15.40887
       _cons |   7474.973   7400.575     1.01   0.316    -7318.566    22268.51
-----------------------------------------------------------------------------```

有上述结果可知,mpg 每增加一单位,会使价格中位数降低 20.44 个单位,即当汽车每加仑能行走的公里数提高一个单位,中档价位的汽车便会降低20.44个单位,但统计结果上并不显著。

下面使用自助法来计算分位数回归的标准误。为便于复制结果,指定随机数的种子。

. set seed 10000  // 设定种子值
. bsqreg price mpg rep78 headroom trunk weight length, reps(400) q(0.5)
(fitting base model)

Bootstrap replications (400)
----+--- 1 ---+--- 2 ---+--- 3 ---+--- 4 ---+--- 5 
..................................................    50
................. (output omitted) 
..................................................   400

Median regression, bootstrap(400) SEs               Number of obs =         69
  Raw sum of deviations    65163 (about 5079)
  Min sum of deviations 52754.93                    Pseudo R2     =     0.1904

------------------------------------------------------------------------------
       price |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
         mpg |  -20.44398   87.80782    -0.23   0.817    -195.9693    155.0814
       rep78 |   766.3722   414.1785     1.85   0.069    -61.55878    1594.303
    headroom |  -527.2818   341.1344    -1.55   0.127      -1209.2    154.6362
       trunk |   108.3175   99.74076     1.09   0.282    -91.06144    307.6964
      weight |   4.197336   3.256015     1.29   0.202    -2.311345    10.70602
      length |  -88.23944    90.8892    -0.97   0.335    -269.9244    93.44548
       _cons |   7474.973   8075.536     0.93   0.358    -8667.793    23617.74
-----------------------------------------------------------------------------

进一步地,考察 0.25、0.5、0.75 分位点上的回归结果:

. sqreg price mpg rep78 headroom trunk weight length, q(0.25 0.5 0.75) reps(400)
(fitting base model)

Bootstrap replications (400)
----+--- 1 ---+--- 2 ---+--- 3 ---+--- 4 ---+--- 5 
..................................................    50
 (output omitted) 
..................................................   400

Simultaneous quantile regression                    Number of obs =         69
  bootstrap(400) SEs                                .25 Pseudo R2 =     0.1953
                                                    .50 Pseudo R2 =     0.1904
                                                    .75 Pseudo R2 =     0.3665

------------------------------------------------------------------------------
             |              Bootstrap
       price |      Coef.   Std. Err.      t    P>|t|     [95% Conf. Interval]
-------------+----------------------------------------------------------------
q25          |
         mpg |  -58.85941    60.6889    -0.97   0.336    -180.1748    62.45596
       rep78 |   378.5492   182.5255     2.07   0.042     13.68592    743.4125
    headroom |  -428.4049   177.6041    -2.41   0.019    -783.4304   -73.37946
       trunk |   157.9781   53.96136     2.93   0.005     50.11082    265.8453
      weight |   .8091042   1.739727     0.47   0.644    -2.668561     4.28677
      length |  -24.49825   47.20241    -0.52   0.606    -118.8545    69.85801
       _cons |   5805.491   4010.312     1.45   0.153    -2211.008    13821.99
-------------+----------------------------------------------------------------
q50          |
         mpg |  -20.44398   98.12396    -0.21   0.836     -216.591     175.703
       rep78 |   766.3722   410.5124     1.87   0.067    -54.23035    1586.975
    headroom |  -527.2818   316.1929    -1.67   0.100    -1159.342    104.7788
       trunk |   108.3175   100.5004     1.08   0.285    -92.57998     309.215
      weight |   4.197336   3.346488     1.25   0.214    -2.492198    10.88687
      length |  -88.23944   93.76858    -0.94   0.350    -275.6802    99.20127
       _cons |   7474.973   8158.464     0.92   0.363    -8833.564    23783.51
-------------+----------------------------------------------------------------
q75          |
         mpg |  -158.3163   115.8176    -1.37   0.177    -389.8324    73.19971
       rep78 |   1453.687   447.9351     3.25   0.002     558.2771    2349.096
    headroom |  -837.2497   580.2633    -1.44   0.154     -1997.18    322.6801
       trunk |   90.09523   136.9239     0.66   0.513    -183.6118    363.8023
      weight |   7.364424   2.936931     2.51   0.015     1.493583    13.23527
      length |  -185.4982   95.92216    -1.93   0.058    -377.2439    6.247448
       _cons |   19508.66   10929.18     1.79   0.079    -2338.458    41355.77
-----------------------------------------------------------------------------```

将分位数回归系数随着分位数的变化情形画图表示,则有:

.  qui bsqreg price mpg rep78 headroom trunk weight length,reps(400) q(0.5)
.  qrqreg, cons ci ols olci

连享会计量方法专题……

参考资料

Source[1]:分位数回归理论及其应用
Source[2]:高级计量经济学及Stata应用
Source[3]:分位数回归及应用简介

关于我们

  • 「Stata 连享会」 由中山大学连玉君老师团队创办,定期分享实证分析经验, 公众号:StataChina
  • 公众号推文同步发布于 CSDN简书知乎Stata专栏。可在百度中搜索关键词 「Stata连享会」查看往期推文。
  • 点击推文底部【阅读原文】可以查看推文中的链接并下载相关资料。
  • 欢迎赐稿: 欢迎赐稿。录用稿件达 三篇 以上,即可 免费 获得一期 Stata 现场培训资格。
  • E-mail: StataChina@163.com
  • 往期推文:计量专题 || 精品课程 || 简书推文 || 公众号合集

点击查看完整推文列表

欢迎加入Stata连享会(公众号: StataChina)

相关文章

  • Stata: 分位数回归简介

      作者: 武翰涛 (南京邮电大学)Stata 连享会: 知乎 | 简书 | 码云 | CSDN | Stata...

  • 分位数回归学习笔记

    一、分位数回归概念 分位数回归是估计一组回归变量X与被解释变量Y的分位数之间线性关系的建模方法。 以往的回归模型实...

  • 分位数回归-Quantile regression

    [toc] 一、分位数回归概念 分位数回归是估计一组回归变量X与被解释变量Y的分位数之间线性关系的建模方法。 以往...

  • 分位数回归

    本文链接:个人站 | 简书 | CSDN版权声明:除特别声明外,本博客文章均采用 BY-NC-SA 许可协议。转载...

  • 分位数回归

    由于各种原因,回归系数可能不稳定。回归分析要求因变量Y为正态分布,并对异常值较为敏感,异常值问题和共线性问题、异方...

  • 分位数回归

    tau越大,对正error的惩罚越大:0 --> 1 ,从-relu变化到relu

  • 高级回归模型(1):分位数回归

    分位数回归 说明 中文说明 英文PPT 作图 散点图和拟合线 根据需要,按分位数分别回归和分别预测,然后合并作图。...

  • Stata: 两本断点回归分析 (RDD) 易懂教程

    Stata 现场培训报名中 简介:断点回归分析 (RDD) 其实很简单,如果,如果……,你懂得背后的原理和适用条件...

  • Stata语言编程 | 介绍篇

    [本文由李佳恩著,余志春翻译] 一:目录 Stata 的简介 Stata 的优点 Stata 的实操 Stata ...

  • 统计分析的一些R包和函数

    横截面数据回归经典方法 quantreg分位数回归 MASSBOX-COX变换 survival生存函数、COX比...

网友评论

    本文标题:Stata: 分位数回归简介

    本文链接:https://www.haomeiwen.com/subject/nnadvctx.html