美文网首页
最小二乘法和极大似然估计

最小二乘法和极大似然估计

作者: richard_123 | 来源:发表于2020-05-20 19:24 被阅读0次

可能看到这两个词汇,感觉没有太大关系,接下来先拆开逐一分析,再来看下两者之间的联系。

数据描述

对数据先进行一定的描述,假设我们有N个样本,\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})\},每个x是p维的向量,w是要求参数。我们利用矩阵或者向量形式进行描述,向量形式的一般用列向量来表示。如下所示:
X = \left( {\matrix{ {{x_{11}}} & \ldots & {{x_{1p}}} \cr \vdots & \ddots & \vdots \cr {{x_{N1}}} & \cdots & {{x_{Np}}} \cr } } \right)Y = \left( \matrix{ {y_1} \hfill \cr {y_2} \hfill \cr \vdots \hfill \cr {y_N} \hfill \cr} \right)W = \left( \matrix{ {w_1} \hfill \cr {w_2} \hfill \cr \vdots \hfill \cr {w_p} \hfill \cr} \right)

最小二乘法LSE

概率角度

最小二乘法的核心思想是通过构造一条曲线来拟合原始数据,预测函数为f(x)=w^{T}x(这里省略了常数项b),极小化函数L = \sum\limits_{i = 1}^N {||{w^T}{x_i} - {y_i}|{|^2}},我们对该函数利用矩阵来进行表示,一步步推导如下:
\eqalign{ & L = \sum\limits_{i = 1}^N {||{w^T}{x_i} - {y_i}|{|^2}} \cr & = ({w^T}{x_i} - {y_i})*{({w^T}{x_i} - {y_i})^T} \cr & = ({w^T}{x_1} - {y_1},{w^T}{x_2} - {y_2},...,{w^T}{x_N} - {y_N})*{(...)^T} \cr & = ({W^T}{X^T} - {Y^T})*{(...)^T} \cr & = ({W^T}{X^T} - {Y^T})*(XW - Y) \cr & = {W^T}{X^T}XW - {W^T}{X^T}Y - {Y^T}XW + {Y^T}Y \cr & = {W^T}{X^T}XW - 2{W^T}{X^T}Y + {Y^T}Y \cr}
公式中第四行转到第五行是利用转置性质,第六行到第七行是因为第六行中中间两项通过维度分析(1xp * pxN * Nx1)可知他们乘出来结果为一个实数且相同因此合并在一起。
对W进行求导,可得到2X^{T}XW-2X^{T}Y(利用转置求导性质),令其等于0,并左乘(X^{T}X)^{-1},得到W=(X^{T}X)^{-1}X^{T}Y

几何角度

还可以利用第二种思路来理解LSE,上述第一种角度下预测函数是f(x)=w^{T}x,可以理解为这是在样本角度考虑,我们可以从X维度p考虑,令f(x)=x^{T}\beta,用矩阵表示就是X\beta(转置消失可以从维度上考虑,前面是1xp * px1,现在是Nxp * px1),从几何角度上理解,f(x)是p维向量空间的一个线性组合,理想情况下

无标题.png
如果拟合非常成功,则y会等于f(x),y是在p维空间上的,但是由于数据有随机性或者存在噪声,所以y不可能在上面,那y与f(x)的距离就理解成y与该平面的距离,也即是垂直下来的法向量,用表示(向量的减法),而法向量与平面上X垂直,根据,用矩阵表示就是(多了个转置也是可以从维度上去看,pxN * Nx1 = px1 所以等式右边0是个向量,表示一共p维都为0),将其拆开再乘以逆矩阵,可得。

极大似然估计MLE

极大似然估计这里没有作太多解释,主要原理是利用概率累乘的log-likelihood,公式如下:
\eqalign{ & L = \log P(Y|X) \cr & = \log \prod\limits_{i = 1}^N {P({y_i}|{x_i})} \cr & = \sum\limits_{i = 1}^N {\log P({y_i}|{x_i})} \cr}
额外注意下,极大似然估计通过求导等于0的方式计算出来是有偏的,比实际值偏小。

二者联系

上述讲到,y是存在随机性的或者说有噪声,我们假设噪声\varepsilon服从高斯分布N(0,{\sigma ^2}),那么y表示为y = w^{T}x + \varepsilon,所以条件概率P(y|w,x)是服从高斯分布的,期望为w^{T}x,方差为\sigma ^2(根据正态分布性质),因此我们可以构造出MLE方程
\eqalign{ & L = \sum\limits_{i = 1}^N {\log P({y_i}|{x_i})} \cr & = \sum\limits_{i = 1}^N {\log [{1 \over {\sqrt {2\pi } \sigma }}} \exp - {{{{(y - {w^T}x)}^2}} \over {2{\sigma ^2}}}] \cr & = \sum\limits_{i = 1}^N {\log } {1 \over {\sqrt {2\pi } \sigma }} - {{{{(y - {w^T}x)}^2}} \over {2{\sigma ^2}}} \cr}
可以发现如果我们要极大化此概率,相当于极小化{{{(y - {w^T}x)}^2}},也即是LSE,所以我们可以下结论,当噪声服从高斯分布时,LSE和MLE是等价的。

来源

以上推导均来自b站视频推导做的总结

相关文章

  • 机器学习笔记-2-线性回归和似然估计

    本文我们讨论以下问题: 线性回归及线性模型的定义 利用最小二乘法估计线性模型参数 似然函数和极大似然估计,后者和最...

  • 最小二乘法和极大似然估计

    可能看到这两个词汇,感觉没有太大关系,接下来先拆开逐一分析,再来看下两者之间的联系。 数据描述 对数据先进行一定的...

  • 极大似然估计

    极大似然估计 以前多次接触过极大似然估计,但一直都不太明白到底什么原理,最近在看贝叶斯分类,对极大似然估计...

  • 极大似然估计

    极大似然估计(Maximum Likelihood Estimation,MLE),也称最大似然估计。“似然”是对...

  • 极大似然估计

    序 极大似然估计和最大后验估计是机器学习中常用的两种参数估计方法。本次记录MLE的原理和用法,为后续推导LR等目标...

  • 极大似然估计

    动机 在学习机器学习算法过程中,发现很多算法策略都采用极大似然估计, 如:线性、逻辑回归,决策树,隐马尔科夫模型。...

  • 极大似然估计

    极大似然估计是一种参数估计的方法(知模型求参数)。先验概率是 知因求果,后验概率是 知果求因,极大似然是 知果求最...

  • 极大似然估计

    现实情况中我们可能会遇到这样的一些例子,需要得到一所高校有车学生的分布情况(假定符合参数为p的伯努利分布),某地区...

  • 极大似然估计

    似然函数 似然函数(likelihood function)是一种关于统计模型中的参数的函数,既然是函数那自变量就...

  • 极大似然估计

    极大似然估计 我们也可以理解为最像估计法或者最可能估计法。 通俗理解:对于一个事件的发生我们的猜测是基于一...

网友评论

      本文标题:最小二乘法和极大似然估计

      本文链接:https://www.haomeiwen.com/subject/dkpiohtx.html