美文网首页
机器学习中的MLE、MAP

机器学习中的MLE、MAP

作者: 学人工智能的菜菜 | 来源:发表于2020-05-10 10:24 被阅读0次

    今天睡了一下懒觉,九点半才起床,昨天吃火锅热气,今天要吃清淡一点了。

    使学过机器学习的人,对机器学习中的MLE(极大似然估计)、MAP(最大后验估计)以及贝叶斯估计(Bayesian)仍有可能一知半解。对于一个基础模型,通常都可以从这三个角度去建模,比如对于逻辑回归(Logistics Regression)来说,因贝叶斯估计用的少,所以暂时不展开去讲:

    MLE: Logistics Regression(逻辑回归)
    MAP: Regularized Logistics Regression(加了正则化的逻辑回归)

    先导知识点: 假设空间(Hypothesis Space

    什么叫假设空间呢?我们可以这样理解。机器学习包含很多种算法,比如线性回归、支持向量机、神经网络、决策树、GDBT等等。我们在建模的时候,第一步就是要选择一个特定的算法比如“支持向量机”。一旦选择了一个算法,就相当于我们选择了一个假设空间。在一个假设空间里,我们通常会有无数种不同的解(或者可以理解成模型),一个优化算法(比如梯度下降法)做的事情就是从中选择最好的一个解或者多个解/模型,当然优化过程要依赖于样本数据。

    第一种策略MLE

    MLE,也叫最大似然估计,就是根据给出的参数求观测值(样本samples)的概率:P(D|W)
    我觉得我们日常生活中求解概率值大部分都是使用了最大似然估计。
    就直接根据参数去求观测值的最大概率,比如投硬币。
    投五次概率分别是HTTTH,那么观测值就是HTTTH,W则是该H表示上面的概率,T表示下面的概率则(1-W)
    所以就直接求解P(D|W) = w.(1-w).(1-w).(1-w).w,
    求出该概率的最大似然估计,则可以得到该w的值,这就叫做最大似然估计求参数法。

    第二种策略MAP

    跟第一种策略不同的是,第二种策略是已经给出了w的以前的先验值,在前人曾经求出过,w的值是多少,那么我们就要根据观测值去更新更好的w
    所以MAP的公式是P(W|D),那么根据贝叶斯公式可知:
    P(W|D) = P(D|W).P(W)

    所以我们可以看出,在求参数估计法的情况下,MLE和MAP的区别在于,是否有先验概率的情况。

    先验概率也叫做Prior

    MLE和MAP的探索

    由上面可知,MAP就是在MLE的基础上加了Prior
    那么当参数符合高斯分布的情况下,下图证明流程得知,
    高斯分布的先验概率趋向于L2正则

    image.png
    那么当参数符合拉普拉斯分布的情况下,下图流程证明:
    拉普拉斯先验概率趋向于L1正则
    image.png

    当数据样本非常多的时候,MAP趋向于MLE

    image.png

    当数据量非常大时,prior的值时固定的,那就非常值渺小了,所以两者就可以时相等的了。

    相关文章

      网友评论

          本文标题:机器学习中的MLE、MAP

          本文链接:https://www.haomeiwen.com/subject/dlvdnhtx.html