最小二乘估计(Least Square Estimation) 主要用于线性回归的参数估计,它的思想就是求一个使得实际值与模型估计值之差达到最小的值,将其作为参数估计值。
1、温度与手足口病发病率的关系
某研究收集了当地一年12个月的温度及手足口病发病率情况,欲分析手足口病发病率与温度的关系。
![](https://img.haomeiwen.com/i13276792/67ae0dc89082426c.png)
上图说明二者是有关系的,总的来说,随着温度的上升,发病率也有增加的趋势。
但上述只是定性说明,我们更想知道,如何用一个数字或者说系数把二者的关系定量描述出来。要得到这样一个估计值,就要找到一条最能把这些数据表示出来的直线。
2、哪条线才算最拟合呢?
找到一条直线连接所有点?不现实
让一下步,找到一条综合而言距离这些点最近的直线,就认为拟合数据最佳。
![](https://img.haomeiwen.com/i13276792/30e692a88e293406.png)
根据这一思想,我们就可以求出每一点与直线的距离,然后将这些距离求和。其中,使得距离之和最小的那条线便是我们要找的直线。
3、怎样求距离?
(1)将每个距离求平方然后求和,也就是求平方和。
因为平方后并不影响大小比较,2.3 大于1.9, 2.3 的平方依然大于1.9 的平方。这种方式就是最小二乘法,字面意思其实就是最小平方和法。
最小二乘法用公式表示就是:
![](https://img.haomeiwen.com/i13276792/263702a8e0a092bb.png)
式中, Yi就是实际值,也就是图中的i个点(这里的i是12个);而a+bx 就是回归方程也就是图8.3中的直线; a和b是待求的系数,分别为截距和斜率。最小二乘法就是要找到使得Q值最小的a和b。实际中可能有多个a和b,但总有一个a 和b会使Q值达到最小,这就是我们要求的估计值。
(2)将距离绝对值化再求和,也就是求绝对值的和。这种方法称为最小绝对值法(Least Absolute Values),还有一个有趣的名字,叫最小一乘法。
这俩有啥区别呢?
相比于最小二乘法,最小绝对值法是更为稳健的一种估计方法,如当因变量存在异常值的时候,最小绝对值法更为稳健。
为啥点到线得距离不是垂直距离呢?
如果我们改用与直线垂直的距离,就不是最小二乘估计了,而是另一种估计方法,称为正交回归(Orthogonal Regression) 。所谓正交,在几何中的意义就是90°垂直。
正交方法能够同时考虑自变量x和因变量y的误差。正交回归将横纵坐标残差的平方和作为目标函数,来求得最优解。直观地理解,正交回归就是找到一条直线,使得点到直线的距离之和最小。所以如果拟合点的横纵坐标都包含误差的情况下,使用正交回归能够得到更准确的结果。
最小二乘法,没有考虑自变量的误差,而且对异常值很敏感,以及当直线垂直X轴的时候,无解!
4、内容扩展
有时我们会见到“最小二乘均数”这样的概念,其含义为校正其他因素以后的均数。例如,比较吸烟和不吸烟人群的肺活量,在正常情况下,可以直接求两组均数然后比较大小。但如果调查时基线不均衡,如不吸烟人群中调查了一批运动员,而吸烟人群中都是非运动员。由于运动员本来就比非运动员的肺活量大,此时直接比较两组均数,如果吸烟人群的肺活量小,那么很难说是由吸烟造成的,也有可能是由吸烟人群中都是非运动员造成的。此时便可计算最小二乘均数,即扣除“运动员”这一混杂因素后,吸烟和不吸烟人群的肺活量。
网友评论