小样本OLS回归梳理

作者: Boye0212 | 来源:发表于2021-03-17 21:28 被阅读0次

独立同分布的大样本OLS回归
小样本OLS回归梳理
小样本OLS回归的框架
平稳时间序列的大样本OLS回归
regression
大样本OLS
SPSS 线性回归
R语言逻辑回归logistic regression
普通最小二乘法推导
从机器学习到深度学习（一）线性回归

上一篇《小样本OLS回归的框架》讲解了小样本OLS回归的主要框架，本文沿着该框架，对小样本OLS回归做一个全面的梳理。

1 假设

这里先将所有的小样本OLS回归中可能用到的假设放到一起，方便浏览。当然，后面的每一个结论并不是要用到所有的假设，而是只用到某几个假设，这在后面讲每个结论时会具体说明。

假设1 线性性： $y_i=x_i'\beta+\varepsilon_i$ ，其中 $\beta$ 是未知参数向量，将所有 $N$ 个样本放到一起，可以写成 $y=X\beta+\varepsilon$ ，其中 $X$ 是 $N\times K$ 矩阵；
假设2 严格外生性： $\mathbb{E}(\varepsilon|X)=0$ ；
假设3 非奇异性： $X'X$ 是非奇异的；
假设4 球形扰动项： $\mathbb{E}(\varepsilon|X)=\sigma^2I_n$ ；
假设5 条件正态扰动项 $\varepsilon|X\sim \mathcal{N}(0,\sigma^2I_n)$ ；
假设6 无近似多重共线性：当 $n\to \infty$ 时， $X'X$ 的最小特征值 $\lambda_\text{min}(X'X)\to\infty$ 的概率为1。

其中，假设3等价于 $\text{rank}(X)=K$ 。假设6只在个别资料中会出现，它排除了近似多重共线性的可能。另外，假设4说明了扰动项没有自相关性并且是同方差的，假设5包含了假设4，假设5只在需要推导 $\hat\beta$ 的抽样分布及其相关问题时需要用到。

2 $\beta$ 的点估计及其性质

2.1 $\beta$ 的点估计

通过求解 $\hat{\beta}=\arg\min \text{SSR}(\beta)$ ，在假设3成立时很容易得到 $\hat\beta=(X'X)^{-1}Xy$ ，这就是点估计。

我们将线性回归的残差记为 $e=y-X\hat\beta$ 。

在后续的推导中，主要用到的是点估计 $\hat\beta$ 与真实 $\beta$ 的差，利用假设1，有 $\hat\beta-\beta=(X'X)^{-1}X'\varepsilon$ 。

2.2 $\hat\beta$ 的性质

首先， $\hat\beta$ 的条件期望就等于 $\beta$ ，即它是条件无偏的，利用假设4，可以得到 $\mathbb{E}(\hat\beta-\beta|X)=0$ 。当然，在无条件下它也是无偏的。

它的条件方差很好计算，由定义和假设4， $\text{Var}(\hat\beta|X)=\sigma^2(X'X)^{-1}$ 。若假设6也成立，则对于任何 $K\times 1$ 且满足 $\tau'\tau=1$ 的向量 $\tau$ ，有当 $n\to \infty$ 时， $\tau'\text{Var}(\hat\beta|X)\tau\to 0$ 。这意味着，只要不存在近似多重共线性，那么只要数据足够多， $\hat\beta$ 的方差就会趋近于0，反之，若出现了近似多重共线性，方差就很难靠收集数据来补救。

可以证明，在所有的线性无偏估计量中， $\hat\beta$ 具有最小的方差，这就是Gauss-Markov定理。它表明，对于任意一个其他的线性无偏估计量 $\hat b$ ， $\text{Var}(\hat b|X)-\text{Var}(\hat\beta|X)$ 必为半正定矩阵。

对于未知的参数 $\sigma^2$ ，可以用残差的方差估计量 $s^2=e'e/(N-K)$ 来估计它。这也是一个无偏估计量，即 $\mathbb{E}(s^2|X)=\sigma^2$ 。

3 $\hat\beta$ 的抽样分布及假设检验

3.1 $\hat\beta$ 的抽样分布

由于是小样本，因此对于扰动项分布的假设至关重要。光靠假设4是不够的，必须要用更强的假设5。

有了假设5，可以得出 $\hat\beta$ 也服从条件正态分布：
$\hat\beta-\beta|X\sim \mathcal{N}\left(0,\sigma^2(X'X)^{-1}\right)$

对于任意 $J\times K$ 的非随机矩阵 $R$ ，有
$R(\hat\beta-\beta)|X\sim \mathcal{N}\left(0,\sigma^2R(X'X)^{-1}R'\right)$

3.2 拟合优度

线性回归模型对数据的拟合情况怎样？可以用拟合优度来表达。下式为非中心化 $R^2$ 的表达式：
$R^2_{uc}\equiv \dfrac{\hat y'\hat y}{y'y} = 1-\dfrac{e'e}{y'y}$

下式是中心化 $R^2$ ，又叫决定系数（Coefficient of Determination）：
$R^2\equiv 1-\dfrac{e'e}{(y-\bar y \ell)'(y-\bar y\ell)}$

其实， $R^2$ 就是 $y$ 和 $\hat y$ 之间的相关系数平方： $R^2=\hat\rho^2_{y\hat y}$ 。

3.3 一些辅助结论和定理

定理1 正态随机变量的二次型 $m$ 维随机向量 $v\sim\mathcal{N}(0,I_m)$ ， $Q$ 是 $m\times m$ 的非随机对称幂等矩阵， $\text{rank}(Q)=q\le m$ ，则 $v'Qv\sim\chi^2_q$ 。

定理2 $q$ 维随机向量 $Z\sim\mathcal{N}(0,V)$ ，其中 $V=\text{Var}(v)$ 是 $q\times q$ 的对称、非奇异的协方差矩阵，则 $Z'V^{-1}Z\sim\chi^2_q$ 。

由定理1，可以得到 $\dfrac{(N-K)s^2}{\sigma^2}\sim\chi^2_{N-K}$ 。

另外， $\text{Cov}(\hat\beta, e|X)=0$ ，并且 $e$ 和 $\hat\beta$ 服从联合正态分布，这是因为
$\left[\begin{matrix} e\\ \hat\beta-\beta \end{matrix}\right] =\left[\begin{matrix} I_n-X(X'X)^{-1}X'\\ (X'X)^{-1}X' \end{matrix}\right]\varepsilon$
而由假设5， $\varepsilon$ 服从条件正态分布，因此上式是 $\varepsilon$ 的线性组合，也服从以 $X$ 为条件的联合正态分布。而对于联合正态分布来说，不相关性等价于独立性，因此， $e$ 和 $\hat\beta$ 是独立的。

3.4 假设检验

3.4.1 $F$ 检验

我们可以对如 $R\beta=r$ 这样的零假设进行假设检验，其中 $R$ 为 $J\times K$ 的矩阵。

若零假设成立，那么
$R\hat\beta-r=R(\hat\beta-\beta)$

由3.1节，我们可知
$R\hat\beta-r|X\sim \mathcal{N}\left(0,\sigma^2R(X'X)^{-1}R'\right)$

再利用定理2，可以得出
$(R\hat\beta-r)'[\sigma^2R(X'X)^{-1}R']^{-1}(R\hat\beta-r)|X \sim \chi^2_J$

由于分布 $\chi^2_J$ 不依赖于 $X$ ，因此，上式的无条件分布也服从 $\chi^2_J$ 分布。

但问题在于 $\sigma^2$ 是未知的，因此上式是无法计算的。解决办法是利用 $s^2$ 替代它，这样替代后，再稍作处理（除以 $J$ ），我们可以推导出一个不一样的分布，也就是 $F$ 统计量：

$\begin{aligned} F=&\dfrac{(R\hat\beta-r)'[R(X'X)^{-1}R']^{-1}(R\hat\beta-r)/J}{s^2}\\ =& \dfrac{(R\hat\beta-r)'[\sigma^2R(X'X)^{-1}R']^{-1}(R\hat\beta-r)/J}{(N-K)s^2/\sigma^2/(N-K)}\\ \sim& F_{J, N-K} \end{aligned}$

为何服从 $F$ 分布？可以从分子为 $\chi^2_J$ 分布除以 $J$ 、分母为 $\chi^2_{N-K}$ 分布除以 $N-K$ 、分子与分母中的变量 $\hat\beta$ 与 $e$ 相互独立三个条件证明。

从另一个角度，记 $e$ 为无约束回归的残差，记 $\tilde e$ 为在约束 $R\beta=r$ 下的回归的残差，那么 $F$ 统计量又可以写为
$F=\dfrac{(\tilde e'\tilde e-e'e)/J}{e'e/(N-K)}$

3.4.2 $t$ 检验

当 $J=1$ 时， $R\hat\beta-r$ 和 $\sigma^2R(X'X)^{-1}R'$ 变成了标量，不必再用二次型的形式构造出 $\chi^2_1$ 分布，而是可以直接构造正态分布形式：
$[\sigma^2R(X'X)^{-1}R']^{-1/2}(R\hat\beta-r)\sim \mathcal{N}(0,1)$

只要再对上一节 $F$ 统计量的分母也相应求平方根，就可以得到 $T$ 统计量：
$\begin{aligned} T\equiv& \dfrac{R\hat\beta-r}{\sqrt{s^2R(X'X)^{-1}R'}}\\ =& \dfrac{[\sigma^2R(X'X)^{-1}R']^{-1/2}(R\hat\beta-r)}{\sqrt{(N-K)s^2/\sigma^2/(N-K)}}\\ \sim& t_{N-K} \end{aligned}$

从而可进行 $t$ 检验。

独立同分布的大样本OLS回归
本文将把OLS回归，从小样本推广到大样本的情形。关于小样本OLS回归，可见《小样本OLS回归的框架》和《小样本OL...
小样本OLS回归梳理
上一篇《小样本OLS回归的框架》[https://www.jianshu.com/p/7729b524a3d7]讲...
小样本OLS回归的框架
1 最小二乘法的历史不管是学习机器学习、计量经济学、数理统计，很多人接触到的第一个算法就是最小二乘法（least...
平稳时间序列的大样本OLS回归
有了《独立同分布的大样本OLS回归》的铺垫，现在进一步将OLS推广到平稳时间序列的情况。思路还是一样：进行点估...
regression
lm()即linear model线性模型函数，用来建立OLS回归模型 OLS线性回归 LASSO回归 LASSO...
大样本OLS
大样本理论已成为当代计量经济学的主流方法。小样本理论的假设过强：小样本理论的严格外生性假设要求解释产量与所有扰动...
SPSS 线性回归
1 OLS线性回归
R语言逻辑回归logistic regression
@[toc] 普通OLS回归普通OLS回归：对回归模型中的自变量、回归系数以及残差项的取值都没有任何限制，作为自...
普通最小二乘法推导
OLS(普通最小二乘估计) 简单回归模型的参数估计,对于具体的样本数据,假设满足:假设条件的数学表示对于残差项代入...
从机器学习到深度学习（一）线性回归
线性回归 OLS、Ridge、Lasso的优缺点对比：OLS 最小二乘法：优点：计算方便（套入公式即可）缺点：数...

小样本OLS回归梳理

1 假设