人工智能100问 - 3极大似然法是什么？与最小二乘的区别？

作者: 西瓜量化 | 来源:发表于2019-03-11 20:51 被阅读10次

我们用机器学习做模型，需要确定模型的各个参数。模型实际的参数我们是无从得知的，我们只能尽最大可能对这些参数进行估计，极大似然法就是使用最广泛的估计方法之一。

极大似然估计从字面上来理解可以拆成三个词，分别是“极大”、“似然”、“估计”，分别的意思如下：
极大:最大的概率
似然：看起来是这个样子的
估计：就是这个样子的
连起来就是，最大的概率看起来是这个样子的那就是这个样子的。怎么样，是不是很朴素？

极大似然法（the Principle of Maximum Likelihood）是由高斯和费希尔先后提出的，这个方法的基础是极大似然原理。
极大似然法的原理是：样本所展现的状态就是所有可能状态中出现概率最大的那个状态。

image

极大似然的计算简单来说可以分为3步：
（1）写出似然函数；
（2）求导数；
（3）导数为0，解方程。

以从箱子里取出小球为例子：箱子里有一定数量的小球，每次随机拿一个球，查看颜色后放回，已知拿到白球的概率为40%到80%之间，拿了四次，3次是白球，1次是黑球。求拿到白球概率的极大似然估计。

解题：这里是有放回的拿取，是一个独立重复事件。我们记拿到白球为事件x，取到时为1，没有取到则为0。

1）写出似然函数：我们假设θ是二项分布的参数，那么在给定一组结果的情况下，似然函数L可表达为：

image
2）因为这个式子太复杂，是乘在一起的，而lnL和L在同一位置取得最大值，所以极大似然估计值也可以由对数似然方程求得。所以我们两边取对数，In L = In θ^h+In (1- θ)^(n-h)。3）对上面的函数式，取一阶导数，令导数=0，可得当θ=h/n时似然函数取最大值。h是x=1的次数，n是实验总数。解出来的值为0.75，这就是我们当前对白球概率的极大似然估计。
3）对上面的函数式，取一阶导数，令导数=0，可得当θ=h/n时似然函数取最大值。h是x=1的次数，n是实验总数。
解出来的值为0.75，这就是我们当前对白球概率的极大似然估计。