高斯－马尔可夫定理以及为什么最小二乘法是最佳线性无偏估计

作者: Stansosleepy | 来源:发表于2018-01-30 07:06 被阅读2699次

高斯－马尔可夫定理以及为什么最小二乘法是最佳线性无偏估计
一元线性回归（BLUE性以及R方）
每日一题
2019-01-27
机器学习_隐马尔可夫模型HMM
GWAS之表型最优无偏预测（BLUP)
全基因组关联分析流程 ( 二 )
马尔可夫决策过程
马尔可夫链和隐马尔可夫模型
2018-11-06

1、背景

在做机器学习和线性回归的时候，经常会遇到不讲道理的最小二乘法，优化的目标是(yi-y)^2最小，这个结论非常暴力，为啥不是三次方，四次方，他的来源是什么呢？
本文参考的内容高斯马尔科夫定理的证明

2、首先引用一下wiki的词条：高斯马尔科夫定理

在统计学中，高斯－马尔可夫定理(Gauss-Markov Theorem)陈述的是：在线性回归模型中，如果误差满足零均值、同方差且互不相关，则回归系数的最佳线性无偏估计(BLUE, Best Linear unbiased estimator)就是普通最小二乘法估计。

这里最佳的意思是指相较于其他估计量有更小方差的估计量，同时把对估计量的寻找限制在所有可能的线性无偏估计量中。
值得注意的是这里不需要假定误差满足独立同分布(iid)或正态分布，而仅需要满足零均值、不相关及同方差这三个稍弱的条件。

3、说明

上面的理论言简意赅，但是很多名词的意思需要展开来理解。
1、什么是线性回归？
2、为什么要零均值、同方差、互不相关
3、什么是线性估计，什么是无偏估计？
4、什么是最佳估计，标准是什么？

3.1、回归、线性回归

回归就是利用测量到的数据去尝试计算真实值得一种方法，假设我们测量到了很多的数据，但是我们内心觉得这些数据可能是有线性关系的，那么我们可以利用这些数据去计算（估计）那条真实的“直线”。

image.png

线性回归有一些问题值得思考：

真实值虽然存在，但是我们永远不知道（上帝才知道）
每一次测量得到的一批数据，用什么方法去估计真值？
每一批数据估计的真值，肯定存在差异，用什么方法去修正，为什么？
非线性回归其实可以通过参数变化，简化为线性回归

3.2、误差满足零均值，同方差，互不相关

这个比较好理解，每一次测量，肯定是存在误差的，如果这个误差的均值是0，形象的理解就是误差可能大一点、也可能小一点，平均起来就是在真值附近变化，而且每次测量的行为都是独立互不影响的。我们就可以定义这个误差的期望是0，方差是一个固定值。

image.png

我们也不知道真实值，对误差的这种假设其实一种理想的假设。

3.3线性估计

image.png

线性估计的模型是这样的，beta是一个模型的真实值，他的维度是k维向量，X是我们的样本，他是一个N*K的矩阵，y是我们样本的结果，是一个N维矩阵，epsilon是我们每次测量和真实值的误差。

比如我现在测量了N个学生的身高、体重、起床时间、平时作业成绩。。。。等等这些参数（K个参数），我想知道这些参数和他们的期末考试成绩的线性关系是什么，他们的期末成绩就是y（N维向量），我现在需要估计的beta就是每个参数和期末成绩关系的矩阵。这个方程里面y和x是已知的。

如果N=K，那么这就是一个N元N次方程组，他只有一个解，我们用这个解就能得到一个beta。但是实际情况来说我们可以测量很多学生的值，N可以比K大很多，这种情况下方程组是无解的。（直观理解，那些点并不完全在一条直线、一个平面上）

在这种情况下我需要一种算法去计算一个beta的估计：

image.png

这里的C应该是和x有关系的。但是这个C可以有很多形式，他就是一种线性估计

3.4无偏估计

无偏估计的定义大概是这样的：

image.png

看着很不直观，但是可以这样理解，无偏估计的意思是我抽取一批样本，然后根据这些样本估计出来的beta，是在真实beta的任意方向等可能存在的，直接一点来说，我把很多批次的估计再来求取一个平均，会更接近于真实的beta，在做无穷多次抽取之后可以任认为这些估计的均值就是真实值。

具体的例子：比如我们要估计总体均值theata，随机抽取一批数据得到样本的均值，这个均值就是无偏的，随着抽取的批次增加，E(E(x)) = theata，也就是均值的均值会得到真实值。

有偏估计是指这个估计的过程中引入了一些系统的误差，最终把很多批次的估计合计起来看，得不到真实的结果。

还有一个和无偏相关的概念——一致性：

image.png

关于无偏和一致性这篇文章讲得比较好深入浅出讲解数理统计——（3）评价估计量的好坏

总结来说：

无偏代表取样本的批次越来越多，在无穷远处可以得到真实值，有偏代表即使取了无穷多的数据，你的估计也是不准的
一致性代表另外一个维度的衡量标准，就是说随着我们取得批次增加，估计值会渐渐收敛于某个值（大数定律），但是注意，并不是一定收敛于真实值

实际上真实世界中的测量都是有系统误差的，估计出来的值是有偏的，但是如果这个偏差比较小，而且是一致的，那么这个估计量就是有意义的。反之，就算这个估计是无偏的，但是没有一致性，那么只有在穷举之后才能得到那个真实值，这样的估计也是很不好的。

4、证明高斯-马尔科夫定理

再重复一下开始的假设，在证明过程中，参数都是矩阵形式的、设计到矩阵运算的和矩阵的性质。

image.png

现在我们要估计K个系统中的参数，他们组成一个K维向量beta。
OLS（最小二乘法）的估计结果由上图所示，现在的目标就是要证明OLS估计是最佳的

4.1OSL估计是无偏的

证明如下，带入y，右边出现真值beta，由于epsilon是0均值的，所以OSL估计出来的beta就是真值beta

image.png

4.2什么是最佳？

估计beta的方法有很多种，我们定义最好的一种是，方差最小的，所以最小二乘法是平方而不是三次方、四次方。

image.png

也就是说上式中左边的估计方法要优于右边的估计方法，接下来就是证明为什么OSL最小二乘法的方差是最小的

4.3半正定矩阵

要证明4.2中的不等式成立，那就是要证明下式是半正定矩阵

image.png
半正定矩阵的定义（半正定改成大于等于0）：

image.png

4.4证明是DX=0（k*k的0矩阵）

假设一个任意的估计矩阵是C，那么这个估计矩阵和OSL的估计矩阵的差异，设为D矩阵，由于两个beta都是无偏估计，那么有：D矩阵性质是DX=0，这里有个条件概率E[DXbeta|X]，如果X是已知的，那么DX只是一个常量，这个常量必须恒等于一个k*k的0矩阵

image.png

4.5证明是半正定

利用了一下这个性质：

image.png

image.png
这样看来如果这个矩阵是D行列式的平方是大于0的，所以得证。
D是一个KN的矩阵，N>k，D乘以D的转置得到一个kk的矩阵，这个矩阵如果是个0矩阵，那么D有什么性质？这说明D也是一个0矩阵，也反方向说明这样的最佳线性估计，有且只有一个，那就是最小二乘法。

网友评论

4ff95160228c:公式B 那里好像少了个2，应该是原文的错误，原文好像没有留言功能。
Stansosleepy:@声时刻可以

数据科学

本文标题：高斯－马尔可夫定理以及为什么最小二乘法是最佳线性无偏估计

本文链接：https://www.haomeiwen.com/subject/pxrqzxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

高斯－马尔可夫定理以及为什么最小二乘法是最佳线性无偏估计

1、背景

2、首先引用一下wiki的词条：高斯马尔科夫定理

3、说明

3.1、回归、线性回归

3.2、误差满足零均值，同方差，互不相关

3.3线性估计

3.4无偏估计

4、证明高斯-马尔科夫定理

4.1OSL估计是无偏的

4.2什么是最佳？

4.3半正定矩阵

4.4证明是DX=0（k*k的0矩阵）

4.5证明是半正定

相关文章