美文网首页算法小白菜
LDA模型分析(二):pLSA建模与求参

LDA模型分析(二):pLSA建模与求参

作者: 林桉 | 来源:发表于2018-09-13 23:57 被阅读68次

    pLSA建模与求参

    • pLSA
      LSA(隐性语义分析)的目的是要从文本中发现隐含的语义维度-即“Topic”或者“Concept”。尽管基于SVD的LSA取得了一定的成功,但是其缺乏严谨的数理统计基础,而且SVD分解非常耗时。Hofmann在SIGIR'99上提出了基于概率统计的PLSA模型,并且用EM算法学习模型参数。PLSA的概率图模型如下


      image.png

      pLSA是一种词袋方法:


      image.png
    • 几个定义:


      image.png
    • pLSA建模目标:根据文档反推其主题分布


      image.png

      图中被涂色的d、w表示可观测变量,未被涂色的z表示未知的隐变量,N表示一篇文档中总共N个单词,M表示M篇文档。
      已知:


      image.png
      问题:
      image.png
    • pLSA求参数:EM算法
      基本思想是:


      image.png
      image.png

      关键:找到𝐿(𝜃)的一个下界,然后maxmize这个下界,逼近求解的似然函数𝐿(𝜃)。


      image.png
    • pLSA求参数:两未知参数矩阵化


      image.png
    • pLSA求参数:两未知参数


      image.png
    • pLSA求参数:E-step


      image.png

      假定参数已知,计算此时引变量的后验概率。

    • pLSA求参数:M-step


      image.png

      带入隐变量的后验概率,最大化样本分布的对数似然函数,求解相应的参数。

    小白学习 无关利益

    相关文章

      网友评论

        本文标题:LDA模型分析(二):pLSA建模与求参

        本文链接:https://www.haomeiwen.com/subject/jcnbgftx.html