1 一般回归问题
一般来说,计量经济学教材会从线性回归讲起,但这里再在线性回归之前,理一理更一般性的回归问题。
先看定义一下什么叫回归:
定义1 回归函数(Regression Function):
就是
对
的回归函数。
再定义一个度量预测得好不好的指标:
定义2 均方误(Mean Squared Error,MSE):假设用
预测
,则预测量
的均方误为
最好的预测函数的形式是什么?以下定理表明,最好的预测函数,恰恰就是回归函数即条件期望。
定理1 MSE的最优解:
是以下问题的最优解:
其中是所有可测和平方可积函数的集合(space of all measurable and square-integrable functions):
在该定理中,直接求解最值问题比较复杂,需要用到变分法,用构造法证明该定理比较简单,直接对做分解即可。令
,则有
显然,第一项为常数,只有当第二项为即
时,
取到最小。
再来看一个有关回归中的扰动项的定理:
定理2 回归等式(Regresssion Identity):给定
,总是有
其中
为回归扰动项(regression disturbance),满足
。
接下来的问题是,我们该如何对这个最优解建模?最简单地,可以用线性函数去近似它。
2 线性回归
首先,引入仿射函数的概念:
定义3 仿射函数族(Affine Functions):记
,
,则仿射函数族定义为
当我们将的函数集合从所有可测且平方可积的函数集限制为仿射函数集后,问题转变为求解最优的参数
使得MSE最小化,该参数就称为最优最小二乘近似系数。
定理3 最优线性最小二乘预测(Best Linear Least Squares Prediction):假设
且矩阵
非奇异,则优化问题
的解,即最优线性最小二乘预测为
其中
证明非常容易,只需对一阶条件求解即可,因为二阶条件即Hessian矩阵
在
非奇异时一定是正定的。
下面正式定义线性回归模型:
定义4 线性回归模型(Linear Regression Model):
其中是回归模型误差(regression model error)。
那么,线性回归模型和最优线性最小二乘预测之间有什么关系?
定理4 假设定理3的条件成立,
,并令
为最优线性最小二乘近似系数。则
等价于。
该定理的证明非常简单,需从必要性和充分性两方面证明,在此不作展开。
该定理意味着,只要正交条件满足,那么线性回归模型的参数值就等于最优线性最小二乘近似系数
,二者等价。
3 模型的正确设定
均值模型怎样才是正确设定了?
定义5 条件均值模型的正确设定(Correct Model Specification in Conditional Mean):线性回归模型
是条件均值
的正确设定,若存在某个参数
使得
。
另一方面,若对于任意均有
,则线性回归模型是对
的错误设定。
由该定义可以看到,线性回归模型设定正确的条件是存在某一参数使得
。换句话说,线性回归模型设定正确的充要条件是
,其中
。
下面的定理说明当均值模型设定正确时,回归模型误差项与真实回归扰动项
的关系:
定理5 如果线性回归模型
是对条件均值
的正确设定,则
(1) 存在一个参数和一个随机变量
,有
,其中
;
(2)。
由定义5可直接得到(1),对于(2),可由(1)的推出
,再使用定理4即可得证。
为便于理解,下面用一个例子说明什么叫模型的正确设定和错误设定:
假设数据生成过程(DGP)为,其中
与
是相互独立的
随机变量。现在如果我们用线性回归模型
对该DGP进行近似,其中
。
经计算,我们可以解得最优线性最小二乘近似,而
,可以看到其中没有包含非线性的部分。若在回归模型中取
,由定理4,就有
,但是,此时
,即模型没有正确设定。
模型没有被正确设定,它会造成什么样的后果?计算可知真正的期望边际效应为,但它不等于
。也就是说,模型的错误设定,会导致解出的最优线性最小二乘近似并不是真正的期望边际效用。
参考资料
- 洪永淼《高级计量经济学》,2011
网友评论