美文网首页呆鸟的Python数据分析算法小白菜
LDA模型分析(一):数学基础

LDA模型分析(一):数学基础

作者: 林桉 | 来源:发表于2018-09-12 00:27 被阅读159次

    一个函数:

    • gamma函数


      image.png

    四个分布:

    • 二项分布、多项分布、beta分布、Dirichlet分布
      image.png
      伯努利分布,n重伯努利试验得到二项分布
      二项分布,增加试验结果,推广到多维度,得到多项分布
      Gamma变形导出Beta分布
      Beta分布是二项分布的共轭先验分布
      Dirichlet分布是Beta分布在高维度上的推广
      最后得到Dirirchlet-Multinomial结构
    • 二项分布
      二项分布是从伯努利分布推进的。伯努利分布,又称两点分布或0-1分布,是一个离散型的随机分布,其中的随机变量只有两类取值,非正即负{+,-}。而二项分布即重复n次的伯努利试验。


      image.png
    • 多项分布
      多项分布是指单次试验中的随机变量的取值不再是0-1的,而是有多种离散值可能(1,2,3...,k)。比如投掷6个面的骰子实验,N次实验结果服从K=6的多项分布。其中


      image.png

      多项分布的概率密度函数为:


      image.png
    • Beta分布
      给定参数 𝛼和 𝛽 ,取值范围为[0,1]的随机变量 x 的概率密度函数


      image.png

      其中


      image.png
    • Dirichlet分布
      Beta分布在高维度上的推广
      Dirichlet分布密度函数:


      image.png

      其中


      image.png
    • Dirichlet分布 VS Beta分布:
      对于Beta分布而言,服从该分布的随机变量,期望可以用


      image.png

      来估计。类似的,若


      image.png
      image.png

    两个派别:

    • 频率派
      把需要推断的参数θ看做是固定的未知常数,即概率 θ虽然是未知的,但最起码是确定的一个值,同时,样本X是随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本X 的分布;
    • 贝叶斯派
      而贝叶斯派的观点则截然相反,他们认为待估计的参数θ是随机变量,服从一定的分布,而样本X是固定的,由于样本是固定的,所以他们重点研究的是参数θ的分布。

    两个结构:

    • 贝叶斯框架


      image.png
    • 共轭先验分布:
      在贝叶斯概率理论中,如果后验概率P(θ|x)和先验概率p(θ)满足同样的分布律,那么,先验分布和后验分布被叫做共轭分布,同时,先验分布叫做似然函数的共轭先验分布。
    • Beta-Binomial 共轭:


      image.png

      其中 (m1,m2)对应的是二项分布 B(m1+m2,p)的计数。针对于这种观测到的数据符合二项分布,参数的先验分布和后验分布都是Beta分布的情况,就是Beta-Binomial 共轭。

    • Dirichlet-Multinomial 共轭:


      image.png

      针对于这种观测到的数据符合多项分布,参数的先验分布和后验分布都是Dirichlet 分布的情况,就是Dirichlet-Multinomial 共轭。意味着,如果我们为多项分布的参数p选取的先验分布是Dirichlet分布,那么以p为参数的多项分布用贝叶斯估计得到的后验分布仍然服从Dirichlet分布。

    小白学习 无关利益

    感谢:

    Gamma 函数 - CSDN博客
    利用Gamma函数求积分的几种形式_百度文库
    通俗理解LDA主题模型 - CSDN博客
    LDA_gensim实现
    概率语言模型及其变形系列(5)-LDA Gibbs Sampling 的JAVA实现 - CSDN博客
    Jupyter Notebook Viewer

    相关文章

      网友评论

      • AI研习社:你好,我是AI研习社,我觉得你的这篇文章写得很棒,可以转载到我们社区ai.yanxishe.com吗?
        林桉:@AI研习社 可以呀:smile::smile:

      本文标题:LDA模型分析(一):数学基础

      本文链接:https://www.haomeiwen.com/subject/hmopgftx.html