现行的最小二乘法是勒让德( A. M. Legendre)于1805年在其著作《计算慧星轨道的新方法》中提出的。它的主要思想就是选择未知参数,使得理论值与观测值之差的平方和达到最小:
根据中心极限定理,大量独立的随机变量之和,若每个变量在和中起的作用都比较小,则和的分布必接近于正态。测量误差正具有这种性质。一般地说,随机(而非系统)的测量误差,是出自大量不显著的来源的叠加。因此,中心极限定理给误差的正态性提供了一种合理的理论解释。
设变量y 与t 成线性关系,即.现在已知m 个实验点ai和bi ,求两个未知参数C,D 。将代入得矛盾方程组
我们令
则可以写成
从线性代数的角度来看,就是A的列向量的线性组合无法充满整个列空间,也就是说Ax=b这个方程根本没有解。从图形上也很好理解:根本没有一条直线同时经过所有蓝色的点!所以为了选取最合适的x,让该等式"尽量成立",引入残差平方和函数H:
这也就是最小二乘法的思想。我们知道,当x取最优值的时候,Ax恰好对应图中线上橙色的点,而b则对应图中蓝色的点,e的值则应红色的线长。
根据矩阵投影的知识,我们可以直接写出最小二乘法问题的解
其中 A 称为结构矩阵, b 称为数据矩阵, ATA称为信息矩阵, ATb称为常数矩阵。而最小二乘的求解实质上就是 Ax=b 没有解,我们就把 b 投影到向量 p 上,求解 Ax =p.
为了定量地给出与实验数据之间线性关系的符合程度,可以用相关系数来衡量.它定义为
r也就是我们之前介绍的向量夹角。r 值越接近1, y与t 的线性关系越好.为正时,直线斜率为正,称为正相关;r 为负时,直线斜率为负,称为负相关.接近于0时,测量数据点分散或之间为非线性.不论测量数据好坏都能求出和,所以我们必须有一种判断测量数据好坏的方法,用来判断什么样的测量数据不宜拟合,判断的方法是时,测量数据是非线性的. r0称为相关系数的起码值,与测量次数n 有关。
为什么最小二乘法要用平方误差?
记样本为(x(i),y(i)),对样本的预测为y^(i)|θ该记法表示该预测依赖于参数θ的选取。我们有:
其中,ϵ是一个误差函数,我们通常认为其服从正态分布即 ϵ∼N(0,σ2),因此有
要求θ的极大似然估计,即是说,我们现在得到的这个真实存在的y在θ不同的取值下,出现概率最大,我们来看这个概率。令
为了简化计算,令
要让L(θ)最大,即需让l(θ)最大,即让∑mi=0(y(i)−y^(i)|θ)2取到最小值。
综上,当误差函数定为平方时,参数θ是样本的极大似然估计。
参考:
https://www.zhihu.com/question/37031188/answer/111336809
http://www.fuzihao.org/
网友评论