美文网首页
[ML] 似然函数

[ML] 似然函数

作者: 原来是酱紫呀 | 来源:发表于2019-11-06 21:52 被阅读0次

    1. 似然函数

    似然函数是关于模型参数的函数。也就是说似然函数表示在选定模型的情况下,对于已有的样本,估计模型参数的似然性。

    “似然性”与“或然性”或“概率”意思相近,都是指某种事件发生的可能性,但是在统计学中,“似然性”和“或然性”或“概率”又有明确的区分。概率用于在已知一些参数的情况下,预测接下来的观测所得到的结果,而似然性则是用于在已知某些观测所得到的结果时,对有关事物的性质的参数进行估计。

    在这种意义上,似然函数可以理解为条件概率的逆反。在已知某个参数B时,事件A会发生的概率写作:P(A|B)={P(A,B) \over P(B)}, 利用贝叶斯定理P(B|A)={P(A|B)P(B) \over P(A)}, 因此,我们可以反过来构造表示似然性的方法:已知有事件A发生,运用似然函数L(B|A),我们估计参数B的可能性。形式上,似然函数也是一种条件概率函数,但我们关注的变量改变了:b<->P(A|B=b)注意到这里并不要求似然函数满足归一性:

    一个似然函数乘以一个正的常数之后仍然是似然函数。对所有\alpha >0,都可以有似然函数:L(b|A)=\alpha P(A|B=b)

    个人理解:

    • 似然函数是在已有训练样本的情况下,选取能使当前样本发生概率最大的参数。
    • 似然函数的函数形式和概率密度函数形式一样。

    2. 为什么要有参数估计

    当模型已定,但是参数未知时。
    例如我们知道全国人民的身高服从正态分布,这样就可以通过采样,观察其结果,然后再用样本数据的结果推出正态分布的均值与方差的大概率值,就可以得到全国人民的身高分布的函数。

    3. 最大似然函数

    给定一个概率分布D,已知其概率密度函数(连续分布)或概率质量函数(离散分布)为f_D,以及一个分布参数\theta,我们可以从这个分布中抽出一个具有n个值的采样P(x_1,x_2,…,x_n)=f_D(x_1,x_2,…,x_n|\theta)但是,我们可能不知道\theta的值,尽管我们知道这些采样数据来自于分布D。那么我们如何才能估计出\theta呢?一个自然的想法是从这个分布中抽出一个具有n个值的采样X_1,X_2,…,X_n,然后用这些采样数据来估计\theta
    一旦我们获得X_1,X_2,…,X_n,我们就能求得一个关于\theta的估计。最大似然估计会寻找关于\theta的最可能的值(即,在所有可能的\theta取值中,寻找一个值使这个采样的“可能性”最大化)。这种方法正好同一些其他的估计方法不同,如\theta非偏估计,非偏估计未必会输出一个最可能的值,而是会输出一个既不高估也不低估的\theta值。

    要在数学上实现最大似然估计法,我们首先要定义似然函数:

    并且在\theta的所有取值上通过令一阶导数等于零,使这个函数取到最大值。这个使可能性最大的

    值即称为\theta最大似然估计

    • 这里的似然函数是指X不变时,关于\theta的一个函数。
    • 最大似然估计函数不一定是惟一的,甚至不一定存在。

    4. 为什么要使似然函数取最大

    极大似然估计是频率学派最经典的方法之一,认为真实发生的结果的概率应该是最大的,那么相应的参数,也应该是能让这个状态发生的概率最大的参数。

    相关文章

      网友评论

          本文标题:[ML] 似然函数

          本文链接:https://www.haomeiwen.com/subject/hnmeyctx.html