美文网首页
最小二乘与线性回归

最小二乘与线性回归

作者: 葡萄肉多 | 来源:发表于2019-11-05 08:54 被阅读0次

    现行的最小二乘法是勒让德( A. M. Legendre)于1805年在其著作《计算慧星轨道的新方法》中提出的。它的主要思想就是选择未知参数,使得理论值与观测值之差的平方和达到最小:


    根据中心极限定理,大量独立的随机变量之和,若每个变量在和中起的作用都比较小,则和的分布必接近于正态。测量误差正具有这种性质。一般地说,随机(而非系统)的测量误差,是出自大量不显著的来源的叠加。因此,中心极限定理给误差的正态性提供了一种合理的理论解释。


    设变量y 与t 成线性关系,即.现在已知m 个实验点ai和bi ,求两个未知参数C,D 。将代入得矛盾方程组



    我们令



    则可以写成

    从线性代数的角度来看,就是A的列向量的线性组合无法充满整个列空间,也就是说Ax=b这个方程根本没有解。从图形上也很好理解:根本没有一条直线同时经过所有蓝色的点!所以为了选取最合适的x,让该等式"尽量成立",引入残差平方和函数H:

    这也就是最小二乘法的思想。我们知道,当x取最优值的时候,Ax恰好对应图中线上橙色的点,而b则对应图中蓝色的点,e的值则应红色的线长。

    根据矩阵投影的知识,我们可以直接写出最小二乘法问题的解


    其中 A 称为结构矩阵, b 称为数据矩阵, ATA称为信息矩阵, ATb称为常数矩阵。而最小二乘的求解实质上就是 Ax=b 没有解,我们就把 b 投影到向量 p 上,求解 Ax =p.

    为了定量地给出与实验数据之间线性关系的符合程度,可以用相关系数来衡量.它定义为



    r也就是我们之前介绍的向量夹角。r 值越接近1, y与t 的线性关系越好.为正时,直线斜率为正,称为正相关;r 为负时,直线斜率为负,称为负相关.接近于0时,测量数据点分散或之间为非线性.不论测量数据好坏都能求出和,所以我们必须有一种判断测量数据好坏的方法,用来判断什么样的测量数据不宜拟合,判断的方法是时,测量数据是非线性的. r0称为相关系数的起码值,与测量次数n 有关。

    为什么最小二乘法要用平方误差?

    记样本为(x(i),y(i)),对样本的预测为y^(i)|θ该记法表示该预测依赖于参数θ的选取。我们有:   


    其中,ϵ是一个误差函数,我们通常认为其服从正态分布即 ϵ∼N(0,σ2),因此有   


    要求θ的极大似然估计,即是说,我们现在得到的这个真实存在的y在θ不同的取值下,出现概率最大,我们来看这个概率。令


    为了简化计算,令


    要让L(θ)最大,即需让l(θ)最大,即让∑mi=0(y(i)−y^(i)|θ)2取到最小值。

    综上,当误差函数定为平方时,参数θ是样本的极大似然估计。

    参考:
    https://www.zhihu.com/question/37031188/answer/111336809
    http://www.fuzihao.org/

    相关文章

      网友评论

          本文标题:最小二乘与线性回归

          本文链接:https://www.haomeiwen.com/subject/nqtsbctx.html