美文网首页机器学习
07 主题模型 - 知识补充 - 概率知识、二项\多项\Beta

07 主题模型 - 知识补充 - 概率知识、二项\多项\Beta

作者: 白尔摩斯 | 来源:发表于2018-12-25 12:33 被阅读133次

    06 主题模型 - pLSA又称pLSI - 基于概率的潜在语义分析模型

    为了讲后续的LDA算法,需要补充一点数学知识。大纲如下:

    概率知识
    二项分布
    多项分布
    Beta分布
    Beta分布和二项分布
    Dirichlet分布


    一、概率知识

    先验概率: 在事情尚未发生前,对该事件发生概率的估计。利用过去历史资料计算出来得到的先验概率叫做客观先验概率;凭主观经验来判断而得到的先验概率叫做主观先验概率。

    后验概率: 通过调查或其它方式获取新的附加信息,利用贝叶斯公式对先验概率进行修正后,而得到的概率。

    似然函数: 给定模型参数θ的条件下,样本数据服从这一概率模型的相似程度。

    先验分布:反映在进行统计试验之前根据其他有关参数知识得到的分布;也就是说在观测获取样本之前,人们对θ已经有一些知识,此时这个θ的分布函数为H(θ),θ的密度函数为h(θ),分别称为先验分布函数和先验密度函数,统称先验分布。

    后验分布:根据样本X的分布以及θ的先验分布π(θ),使用概率论中求解条件概率的方式可以计算出来已知X的条件下,θ的条件分布π(θ|x)。因为该分布是在获取样本x之后计算出来的,所以称为后验分布。
    后验分布 = 历史数据(先验概率) + 样本(似然函数)

    共轭分布:如果先验分布和后验分布具有相同的形式,那么先验分布和似然函数被称为共轭分布。
    如:先验分布是一个正太分布,加上似然函数后形成的后验分布也是一个正太分布,那么先验分布似然函数称为共轭分布

    分析: 也许读者会困惑先验分布后验分布到底是个什么意思?这里我举个栗子。
    假如现在有一个硬币,我刚拿到硬币的时候心里有个数:抛硬币正面反面的概率都是50%,这是我根据以往经验得到的一个先验分布
    现在我开始抛硬币,我抛硬币的过程就是在获取样本X的过程,X= {正面,反面,反面,反面,正面....} ; 如果我扔了10次硬币,正面7次反面3次。这是似然函数得到的结果。
    现在预测是正面的概率:先验分布=0.5,似然函数预测的概率=0.7。
    两个分布相加后的结果:12/20 就是后验分布预测下次是正面的概率。


    二、二项分布

    二项分布是从伯努利分布推导过来的。伯努利分布,又称两点分布或0-1分布,是一个离散型的随机分布,其中的随机变量只有两类取值,非正即负{+,-}。

    而二项分布即重复n次的伯努利试验,记为 X ~ b(n,p);

    简言之,只做一次实验,是伯努利分布,重复做了n次,是二项分布。

    期望E(x) = np 方差 D(x) = np(1-p)

    拿抛硬币举例子,正面概率p,反面概率1-0。我抛了n次。
    pk(1-p)n-k 表示其中p的概率取到了k次,1-p的概率取到了n-k次。即意味着k次正面,n-k次反面。

    下面的公式即Cnk,比如一共抽了10次,其中k次出现正面的情况。


    例子: 做了若干次的抛100回硬币的实验,若正的情况记为1,负的情况记为0,结果如图所示,发现正面的概率是0.9。
    其中12%的实验结果证明抛100次后是正面的次数正好是90。而在坐标轴的左右两侧,有趋向于0的概率发现抛100次硬币是正面的结果分别为75和100%。

    如果抛无数轮,每轮抛100次硬币,最后是正面朝上的均值是多少呢?
    np = 100×0.9 = 90;
    图中最高的那个点对应的是众数,众数对应的横坐标就是我们的期望,可以看到期望几乎就等于90。


    三、多项分布

    多项分布(Multinomial Distribution)是二项分布的推广。

    多项分布是指单次试验中的随机变量的取值不再是0/1的,而是有多种离散值可能(1,2,3...,k)。比如投掷6个面的骰子实验,N次实验结果服从K=6的多项分布。其中K个离散值的概率为:


    四、Beta分布

    Beta分布是二项分布的共轭分布,是指一组定义在(0,1)区间的连续概率分布,具有两个参数:α,β>0;

    \color{red}{PS:下面比较绕,好好理解。}
    共轭分布: 如果先验分布和后验分布具有相同的形式,那么先验分布和似然函数被称为共轭分布。
    这里我们认为当Beta分布作为先验分布二项分布作为条件分布(似然函数),最终得到的后验分布的分布和Beta分布的分布形式相同。
    \color{red}{即,Beta分布作为其后验分布的分布形式。}

    Beta分布

    Beta分布是指一组定义在(0,1)区间的连续概率分布,什么意思?
    当你不知道一件事情发生的具体概率是多少时,Beta分布可以给出所有概率出现的可能性大小。


    举例:
    姚明罚球,投篮命中率高。
    体育老师,投篮命中率中。
    柔弱女生,投篮命中率低。
    那么让柔弱女生去投篮,她投不进的概率会更高。

    Beta分布描述的是投篮命中率的分布情况。
    Beta分布中存在α,β,我们认为α是正例发生的频数,β是负例发生的频数。
    让任何一个人投篮这件事情发生之前,有一个他们是否会投进的先验概率,即我们人为的经验。

    回到刚才举的例子,现在姚明开始投篮了,他投进了5次,1次没有投进。
    我们人为姚明命中率为80%的概率非常高。

    姚明投篮 - 蓝线

    柔弱女生开始投篮了,她投进了1次,3次没进。
    我们人为女生投篮命中率打到70%的可能性非常低。

    女生投篮 - 绿线

    Beta分布计算的是什么?
    是我们投篮命中率为0%~100%区间内,各个情况(..1%,2%...,99%...)分别发生的概率。是关于连续概率的概率。

    \color{red}{Beta分布,决定了我们LDA模型建立时需要考虑的因素。}


    五、Beta分布和二项分布

    除去系数不看,Beta分布二项分布具有相同的形式。将Beta分布当做先验分布,将二项分布当做似然函数。


    六、Dirichlet分布

    Dirichlet分布是由Beta分布推广而来的,是多项式分布的共轭分布。

    08 主题模型 - LDA

    相关文章

      网友评论

        本文标题:07 主题模型 - 知识补充 - 概率知识、二项\多项\Beta

        本文链接:https://www.haomeiwen.com/subject/zffflqtx.html