美文网首页spark||flink||scala
最大似然估计的应用

最大似然估计的应用

作者: 小碧小琳 | 来源:发表于2018-03-10 08:22 被阅读37次

一、似然函数

已知有一组样本X1,X2,...Xn,X服从分布律P{X=x} = p(x;θ),又设x1,x2,...xn是相应于样本X1,X2,...Xn的一个样本值,(已知分布,所以可以知道样本Xi的值取到xi的概率,也就可以知道,对于所有的样本来说X1,X2,...Xn取到x1,x2,...xn的概率。)
那么 ,若是 已知一组数据为x1,x2,...xn,那么可以认为,这是一组从样本中采样得到的值,那么事件{X1=x1,X2=x2,...Xn=xn}的发生的概率为

这一概率随着θ的取值而变化,他是θ的函数,L(θ)称为样本的似然函数。(这里的x1,x2,...xn是已知的样本值,都是常数。)

通俗的讲就是,我现在手里有一组数据,也知道这组数据的样本服从什么分布(不知道的就假设一个),那么我就可以认为每个数据是一个事件,发生的概率为P{X=x} = p(x;θ),那么这整组数据,是连续对样本采样得到的一个事件,这个事件发生的概率就是所有小事件的乘积。(也可以认为这组数据,是不断地对服从一定分布的样本采样得到的

二、最大似然估计法

由上面可知,假使现在有一组数据,样本服从一定分布,但是分布的参数θ并不知道,怎么求得这个θ?

由上面可知,既然事情已经发生了,那么就说明在参数θ下,这个事件发生(取得的手中的样本值)的概率L(θ)比较大,若估计出一个θ1和θ2,函数L(θ1)<L(θ2),那么我们就认为θ2更接近于参数θ,因为θ2更能使这件事情发生。所以,我们就是想要找到一个参数θ,使这个事件尽可能的发生,也就是说,L(θ)要尽可能的大

能使L(θ)最大的值,就作为参数的最大似然估计值。

三、最大似然估计法的应用

无论是在有监督还是无监督,判别模型还是生成模型,但凡是和概率有挂钩的,最终是模型是预测概率的,都少补了最大似然估计的应用。

3.1、有监督学习

3.1.1 逻辑回归分类(判别模型==>条件概率)
  • 目标:对于新来的样例,预测其属于y=1 该类的概率

  • 已有数据:样例x,标签y。

  • 事件:在样例X(i)=x(i)的条件下,类别是y。(这是已知的,这个事件也是服从一个由参数θ控制的分布的。)
    于是得到模型:

对于所有的样本来说,在样例取得m个值的情况下,m个类别分别是y的概率。就是这些小事件一起发生的概率。于是有极大似然函数:

image.png

于是此时,找到使L(θ)最大的参数θ,就能够使上述事件尽可能的发生, 也是最接近实际值的θ了。于是可以用来预测。

3.1.2、高斯判别模型(生成模型 ==>联合分布)

为什么是生成模型,因为这里认为,数据(样本,类别)都是在满足这些分布的情况下生成的。
判别的时候,模型表达的意思 ,“先采样生成类别y,再采样生成新来样例xi”,这个事件发生的概率,那个大,就说明更符合实际情况。比如在类别是1的情况下, 采样生成新来样例的概率是0.6,在类比是2的情况下采样生成新来样例的概率 是0.8,那么新来阳历属于类比2的情况更符合实际。

  • 目标:每个类别服从一个分布P(Y=y) = p(y),确定类别以后每个样例也服从一个分布P(X=x|Y=y) ~p,学习完后,最终可以用“先采样生成一个类别标签,在已知类别标签的情况下采样生成新来样例”的概率,来判断数据哪一类 。
  • 数据:样例x,标签y
  • 事件:1、同时观测到(x,y),于是我们可以认为一个事件是(X=x,Y=y)同时发生。2、由联合分布公式可知,p(x,y)=p(x|y)p(y)。于是我们也可以认为,一个事件(x,y)是 先采样得到y,再在y的条件下采样生成x得到的 。
    所以此时,我们想要知道的是,y的分布(伯努利分布),以及在y确定的情况下x的分布(多值高斯分布),于是可以得到模型。

已有的m个数据对,就是取到m个(x,y)数据对的事件,它发生的概率为:

找到上式中的参数,使上述事件尽可能的发生,就是要估计的参数了。

并且,参数的实际意义是 可以根据表达式理解出来的。也就是最接近似然函数的情况下,参数的理想状况。
比如对上面目标函数求导以后得到各参数的值。其中

这里的φ代表类别是1的概率,就等于 样本中y=1对的个数除以样本总数m。

3.2、无监督学习

  • 目标,对于新来的样例,预测其属于某一类(k个类)的概率
  • 已有数据: 样例x
  • 事件:不同于有监督学习中,(有监督:一个事件是(X=x,Y=y)同时发生,y已经确定,所以可以直接用p(x,y)=p(x|y)p(y)来 表示此事件。)
    此时的每个事件,就是样例x发生。(但是每个样例都有k个可能的类与之对应,所以需要全概率公式。)所以得到每个事件的模型:

那么数据就是代表着,m个事件X=x同时发生的概率 :

但是,这个式子一开始并不好求,于是我们先随机为每个样例选一个相应的类别,,,接下来就是EM思想,可以看EM算法这一块。

每个类别的概率是所有样例的后验概率的平均值(参考GMM)

总之,最大化这个似然函数,最终得到的,也是我们想要的参数。

3.3 最大后验概率估计(MAP)

逻辑回归中的模型是,认为θ是一个常数,一个事件就是,在样例X=x的条件下,类别是y的概率。

而贝叶斯学派就认为,θ是一个随机变量,最大后验概率估计的模型是:

也就是认为,是先采样生成θ以后,再在x和θ的情况下,类别是y的概率。

二者(逻辑回归与MAp)都是通过极大似然来找到合适的θ,为什么说贝叶斯最大后验概率估计就能跟好的克服过拟合问题呢?

在《规则化和模型选择》中给出了解释。

相关文章

  • 最大似然估计的应用

    一、似然函数 已知有一组样本X1,X2,...Xn,X服从分布律P{X=x} = p(x;θ),又设x1,x2,....

  • 2018-10-06

    最大似然估计 1.最大似然估计概念: 最大似然估计,只是一种概率论在统计学的应用,它是参数估计的方法之一。说...

  • 最大似然估计

    0.参数估计 参数估计分为:点估计区间估计 点估计包含:矩估计法最大似然估计法(本章讲这里)最小二乘法贝叶斯估计法...

  • 最大似然估计

    很简单,如果把产生的误差比作犯罪,那最大似然估计就是找出最有可能作案的犯罪嫌疑人,即找到参数长什么样如何组合会导致...

  • 最大似然估计

    极大似然估计,通俗理解来说,就是利用已知的样本结果信息,反推最具有可能(最大概率)导致这些样本结果出现的模型参数值...

  • 模式识别——3 概率密度函数的估计

    3.1 引言 3.2 最大似然估计 3.2.1 最大似然估计的基本原理 3.2.2 最大似然估计的求解 3.2.3...

  • 极大似然估计和贝叶斯估计

    '参数估计'学习总结 最大似然估计 回顾一下贝叶斯定理 似然函数 最大似然估计就是要用似然函数取到最大值时的参数值...

  • 最大似然估计和最大后验概率

    1)最大似然估计(MLE,Maximum Likelihood Estimation) 最大似然估计假设数据的产生...

  • 最大似然估计 最大后验估计

    MLE MAP 最大后验概率 wiki 机器学习基础篇——最大后验概率 MLE:首先看机器学习基础篇——最大后验概...

  • [Mark]最大似然估计

网友评论

    本文标题:最大似然估计的应用

    本文链接:https://www.haomeiwen.com/subject/tzzpfftx.html