一、概率与统计的区别
所谓概率,指的就是已知一个模型和参数,预测这个模型产生的一些结果的特性
所谓统计,指的是,我已经知道了一些结果的数据,我要利用这对数据去预测模型和参数。
概率是已知模型和参数,推数据。统计是已知数据,推模型和参数
二、最大似然估计(maximum likelihood estimates,MLE)
对一个二项分布:我们知道n次伯努利试验后的结果,想要求二项分布的参数p,则可根据以下优化方程求参数:
argmax p(x|θ) = argmax L(Θ) = argmax p(x1,Θ) * p(x2,Θ) * p(x3,Θ) * ... * p(xn,Θ)
三、最大后验估计(maximum a posteriori estimation,MAP)
在实际情况时,我们想要估计参数,我们有时候会已经实现知道参数Θ可能出现的概率,也就是说我们知道先验概率.因此我们实际优化时,优化目标不应该是求一个参数使得事件出现的次数最大,同时我们还应该考虑使得参数符合先验概率的出现方式,因此我们的优化目标应该再乘一个先验概率。
换句话说,我们的优化目标变为优化后验概率(即给定了观测值以后使后验概率最大:
argmax p(θ|x) = argmax【 p(x|θ) * p(θ) / p(x)】= argmax p(x|θ) * p(θ)
四、贝叶斯估计
贝叶斯估计是在MAP上做进一步拓展,此时不直接估计参数的值,而是允许参数服从一定概率分布。回忆下贝叶斯公式:
贝叶斯.png
五、联系
当先验分布均匀之时,MAP 估计与 MLE 相等。直观讲,它表征了最有可能值的任何先验知识的匮乏。在这一情况中,所有权重分配到似然函数,因此当我们把先验与似然相乘,由此得到的后验极其类似于似然。因此,最大似然方法可被看作一种特殊的 MAP。
如果先验认为这个硬币是概率是均匀分布的,被称为无信息先验( non-informative prior ),通俗的说就是“让数据自己说话”,此时贝叶斯方法等同于频率方法。
随着数据的增加,先验的作用越来越弱,数据的作用越来越强,参数的分布会向着最大似然估计靠拢。而且可以证明,最大后验估计的结果是先验和最大似然估计的凸组合。
参考:
https://blog.csdn.net/bitcarmanlee/article/details/81417151
网友评论