我们用机器学习做模型,需要确定模型的各个参数。模型实际的参数我们是无从得知的,我们只能尽最大可能对这些参数进行估计,极大似然法就是使用最广泛的估计方法之一。
一、什么是极大似然?
极大似然估计从字面上来理解可以拆成三个词,分别是“极大”、“似然”、“估计”,分别的意思如下:
极大:最大的概率
似然:看起来是这个样子的
估计:就是这个样子的
连起来就是,最大的概率看起来是这个样子的那就是这个样子的。怎么样,是不是很朴素?
极大似然法(the Principle of Maximum Likelihood)是由高斯和费希尔先后提出的,这个方法的基础是极大似然原理。
极大似然法的原理是:样本所展现的状态就是所有可能状态中出现概率最大的那个状态。
二、举个栗子
image三、怎么计算?
极大似然的计算简单来说可以分为3步:
(1)写出似然函数;
(2)求导数;
(3)导数为0,解方程。
以从箱子里取出小球为例子:箱子里有一定数量的小球,每次随机拿一个球,查看颜色后放回,已知拿到白球的概率为40%到80%之间,拿了四次,3次是白球,1次是黑球。求拿到白球概率的极大似然估计。
解题:这里是有放回的拿取,是一个独立重复事件。我们记拿到白球为事件x,取到时为1,没有取到则为0。
-
1)写出似然函数:我们假设θ是二项分布的参数,那么在给定一组结果的情况下,似然函数L可表达为:
image -
2)因为这个式子太复杂,是乘在一起的,而lnL和L在同一位置取得最大值,所以极大似然估计值也可以由对数似然方程求得。所以我们两边取对数,In L = In θ^h+In (1- θ)^(n-h)。3)对上面的函数式,取一阶导数,令导数=0,可得当θ=h/n时似然函数取最大值。h是x=1的次数,n是实验总数。解出来的值为0.75,这就是我们当前对白球概率的极大似然估计。
-
3)对上面的函数式,取一阶导数,令导数=0,可得当θ=h/n时似然函数取最大值。h是x=1的次数,n是实验总数。
解出来的值为0.75,这就是我们当前对白球概率的极大似然估计。
PS: 当方程无解时,要从定义出发,考虑L(θ)的单调性,找到max(L(θ))对应的估计值。
四、与最小二乘的区别?
- 1)最小二乘是求计算值与实际值的欧式距离最小的参数,是从lost function的角度去看的。而极大似然是求目前这个观测数据出现概率最大的参数,是从概率的角度去看。
- 2)极大似然是要有分布假设的,而最小二乘没有这个假设。
- 3)当极大似然的分布假设为高斯分布的时候,是和最小二乘法等价的。
网友评论