1 一元回归与多元回归
任何一本初级水平的计量经济学、统计学或机器学习相关书籍,都会详细推导多元线性线性回归的解,在这里就不再赘述。
我们给出本文用到的一些设定。为维因变量向量,假设,如果自变量为维,将排为矩阵,其中第一列为全是的截距项,我们有最小二乘估计:
如果是单变量回归,并且没有截距项的话,将自变量记为维向量,中的最小二乘估计为
二者有何联系?如果在多变量回归中,的列向量相互正交即为对角矩阵,则可以得出,每个系数的估计值为。
这给了我们一种启示,能否构造出相互正交的一些维度?
2 Gram–Schmidt过程
我们用如下过程计算:
- ;
- 遍历:用对的每个分别做无截距项的一元线性回归,分别得到系数,最后得到;
- 再用对做无截距项的一元回归,得到最终的。
由于只在中出现,并且与均正交,因此有以上结果。若,则该估计的方差可以写为
注意到,每一个维度都可以作为第维,因此,每一个都可以用这样的方法得出。
3 QR分解
如果补充上,其中,将所有的排成的上三角矩阵,同时再记,则有
再构造一个的对角矩阵,对角线元素为,即,在上式中间插入,则有
记,,这就是矩阵的QR分解:。
由于的列向量相互正交,因此,而还是一个上三角矩阵。利用QR分解,我们可以将最小二乘估计写为
并有拟合值
由于是上三角矩阵,且最后一行为,因此也是上三角矩阵,且最后一行为。再利用,可得出的最后一行为,因此,有
这也与第2节的结果一致。
参考文献
- Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. The elements of statistical learning: data mining, inference, and prediction. Springer Science & Business Media, 2009.
网友评论