最小二乘法和极大似然估计

作者: richard_123 | 来源:发表于2020-05-20 19:24 被阅读0次

机器学习笔记-2-线性回归和似然估计
最小二乘法和极大似然估计
极大似然估计
极大似然估计
极大似然估计
极大似然估计
极大似然估计
极大似然估计
极大似然估计
极大似然估计

可能看到这两个词汇，感觉没有太大关系，接下来先拆开逐一分析，再来看下两者之间的联系。

数据描述

对数据先进行一定的描述，假设我们有N个样本， $\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})\}$ ，每个 $x$ 是p维的向量，w是要求参数。我们利用矩阵或者向量形式进行描述，向量形式的一般用列向量来表示。如下所示：
$X = \left( {\matrix{ {{x_{11}}} & \ldots & {{x_{1p}}} \cr \vdots & \ddots & \vdots \cr {{x_{N1}}} & \cdots & {{x_{Np}}} \cr } } \right)Y = \left( \matrix{ {y_1} \hfill \cr {y_2} \hfill \cr \vdots \hfill \cr {y_N} \hfill \cr} \right)W = \left( \matrix{ {w_1} \hfill \cr {w_2} \hfill \cr \vdots \hfill \cr {w_p} \hfill \cr} \right)$

最小二乘法LSE

概率角度

最小二乘法的核心思想是通过构造一条曲线来拟合原始数据，预测函数为 $f(x)=w^{T}x$ （这里省略了常数项b），极小化函数 $L = \sum\limits_{i = 1}^N {||{w^T}{x_i} - {y_i}|{|^2}}$ ，我们对该函数利用矩阵来进行表示，一步步推导如下：
$\eqalign{ & L = \sum\limits_{i = 1}^N {||{w^T}{x_i} - {y_i}|{|^2}} \cr & = ({w^T}{x_i} - {y_i})*{({w^T}{x_i} - {y_i})^T} \cr & = ({w^T}{x_1} - {y_1},{w^T}{x_2} - {y_2},...,{w^T}{x_N} - {y_N})*{(...)^T} \cr & = ({W^T}{X^T} - {Y^T})*{(...)^T} \cr & = ({W^T}{X^T} - {Y^T})*(XW - Y) \cr & = {W^T}{X^T}XW - {W^T}{X^T}Y - {Y^T}XW + {Y^T}Y \cr & = {W^T}{X^T}XW - 2{W^T}{X^T}Y + {Y^T}Y \cr}$
公式中第四行转到第五行是利用转置性质，第六行到第七行是因为第六行中中间两项通过维度分析（1xp * pxN * Nx1）可知他们乘出来结果为一个实数且相同因此合并在一起。
对W进行求导，可得到 $2X^{T}XW-2X^{T}Y$ （利用转置求导性质），令其等于0，并左乘 $(X^{T}X)^{-1}$ ，得到 $W=(X^{T}X)^{-1}X^{T}Y$ 。

几何角度

还可以利用第二种思路来理解LSE，上述第一种角度下预测函数是 $f(x)=w^{T}x$ ，可以理解为这是在样本角度考虑，我们可以从X维度p考虑，令 $f(x)=x^{T}\beta$ ，用矩阵表示就是 $X\beta$ （转置消失可以从维度上考虑，前面是1xp * px1，现在是Nxp * px1），从几何角度上理解，f(x)是p维向量空间的一个线性组合，理想情况下

无标题.png
如果拟合非常成功，则y会等于f(x)，y是在p维空间上的，但是由于数据有随机性或者存在噪声，所以y不可能在上面，那y与f(x)的距离就理解成y与该平面的距离，也即是垂直下来的法向量，用表示（向量的减法），而法向量与平面上X垂直，根据，用矩阵表示就是（多了个转置也是可以从维度上去看，pxN * Nx1 = px1 所以等式右边0是个向量，表示一共p维都为0），将其拆开再乘以逆矩阵，可得。

极大似然估计MLE

极大似然估计这里没有作太多解释，主要原理是利用概率累乘的log-likelihood，公式如下：
$\eqalign{ & L = \log P(Y|X) \cr & = \log \prod\limits_{i = 1}^N {P({y_i}|{x_i})} \cr & = \sum\limits_{i = 1}^N {\log P({y_i}|{x_i})} \cr}$
额外注意下，极大似然估计通过求导等于0的方式计算出来是有偏的，比实际值偏小。

二者联系

上述讲到，y是存在随机性的或者说有噪声，我们假设噪声 $\varepsilon$ 服从高斯分布 $N(0,{\sigma ^2})$ ，那么y表示为 $y = w^{T}x + \varepsilon$ ，所以条件概率 $P(y|w,x)$ 是服从高斯分布的，期望为 $w^{T}x$ ，方差为 $\sigma ^2$ （根据正态分布性质），因此我们可以构造出MLE方程
$\eqalign{ & L = \sum\limits_{i = 1}^N {\log P({y_i}|{x_i})} \cr & = \sum\limits_{i = 1}^N {\log [{1 \over {\sqrt {2\pi } \sigma }}} \exp - {{{{(y - {w^T}x)}^2}} \over {2{\sigma ^2}}}] \cr & = \sum\limits_{i = 1}^N {\log } {1 \over {\sqrt {2\pi } \sigma }} - {{{{(y - {w^T}x)}^2}} \over {2{\sigma ^2}}} \cr}$
可以发现如果我们要极大化此概率，相当于极小化 ${{{(y - {w^T}x)}^2}}$ ，也即是LSE，所以我们可以下结论，当噪声服从高斯分布时，LSE和MLE是等价的。