可能看到这两个词汇,感觉没有太大关系,接下来先拆开逐一分析,再来看下两者之间的联系。
数据描述
对数据先进行一定的描述,假设我们有N个样本,,每个
是p维的向量,w是要求参数。我们利用矩阵或者向量形式进行描述,向量形式的一般用列向量来表示。如下所示:
最小二乘法LSE
概率角度
最小二乘法的核心思想是通过构造一条曲线来拟合原始数据,预测函数为(这里省略了常数项b),极小化函数
,我们对该函数利用矩阵来进行表示,一步步推导如下:
公式中第四行转到第五行是利用转置性质,第六行到第七行是因为第六行中中间两项通过维度分析(1xp * pxN * Nx1)可知他们乘出来结果为一个实数且相同因此合并在一起。
对W进行求导,可得到(利用转置求导性质),令其等于0,并左乘
,得到
。
几何角度
还可以利用第二种思路来理解LSE,上述第一种角度下预测函数是,可以理解为这是在样本角度考虑,我们可以从X维度p考虑,令
,用矩阵表示就是
(转置消失可以从维度上考虑,前面是1xp * px1,现在是Nxp * px1),从几何角度上理解,f(x)是p维向量空间的一个线性组合,理想情况下

如果拟合非常成功,则y会等于f(x),y是在p维空间上的,但是由于数据有随机性或者存在噪声,所以y不可能在上面,那y与f(x)的距离就理解成y与该平面的距离,也即是垂直下来的法向量,用表示(向量的减法),而法向量与平面上X垂直,根据,用矩阵表示就是(多了个转置也是可以从维度上去看,pxN * Nx1 = px1 所以等式右边0是个向量,表示一共p维都为0),将其拆开再乘以逆矩阵,可得。
极大似然估计MLE
极大似然估计这里没有作太多解释,主要原理是利用概率累乘的log-likelihood,公式如下:
额外注意下,极大似然估计通过求导等于0的方式计算出来是有偏的,比实际值偏小。
二者联系
上述讲到,y是存在随机性的或者说有噪声,我们假设噪声服从高斯分布
,那么y表示为
,所以条件概率
是服从高斯分布的,期望为
,方差为
(根据正态分布性质),因此我们可以构造出MLE方程
可以发现如果我们要极大化此概率,相当于极小化,也即是LSE,所以我们可以下结论,当噪声服从高斯分布时,LSE和MLE是等价的。
来源
以上推导均来自b站视频推导做的总结
网友评论