美文网首页gensim
LDA 主题模型效果度量

LDA 主题模型效果度量

作者: 风驰电掣一瓜牛 | 来源:发表于2017-05-08 19:30 被阅读106次

度量方法:

  1. 在测试集或训练集上计算困惑度
  2. 在具体应用中看效果,如分类

这里主要说说如何计算困惑度。

计算方法为:

  1. 计算每篇文档的概率p(d),
  2. 除以所有文档词的总数(不排重),乘以-1,求指数

难点在于计算每篇文档的概率 参考1 参考2, 在Blei原始论文中并没有详说。

一种方法是计算一篇文档所有词的概率和,即似然性,然后取log,这也是gensim和sklearn的做法。

一个词的概率:
p(w) = sigma p(z,w) = sigma p(z)p(w|z)

一篇文档概率
p(d) = log (p(w1)p(w2)...) = sigma log(p(w))

详细公式推导见参考3

具体实现可参考类 gensim.models.ldamodel.LdaModel的成员方法 log_perplexity(),结果只输出到日志中,但是调用成员方法bound()可以自己计算得到,该函数返回的是语料似然值,假设为L,则语料困惑度为exp(-L)

也可以参考类 sklearn.decomposition.LatentDirichletAllocation 的成员方法perplexity(), 该函数直接返回困惑度。

在实践中,困惑度主要用来观察模型收敛情况,可以在训练集上进行,也可以在held-out数据集上。

其他参考

  1. 困惑度wiki
  2. 知乎讨论
  3. sklearn
  4. gensim

相关文章

  • LDA 主题模型效果度量

    度量方法: 在测试集或训练集上计算困惑度 在具体应用中看效果,如分类 这里主要说说如何计算困惑度。 计算方法为: ...

  • 10 主题模型 - 代码案例一 - LDA主题模型初识

    08 主题模型 - LDA09 主题模型 - LDA参数学习-Gibbs采样 安装 lda 库使用第三方的lda库...

  • 词典构造方法之LDA主题模型

    词典构造方法之LDA主题模型 主题模型LDA原理理解 LDA是一种非监督学习技术,可以用来识别大规模文档集(doc...

  • LDA主题模型

    LDA数学八卦学习笔记 数学知识 Gamma函数 Gamma函数的性质其可以看作阶乘在实数集上的扩展 Gamma分...

  • LDA主题模型

    JGibbLDA是Java版本的LDA算法,可以通过命令行的方式使用,也可以通过通过调用LDACmdOption中...

  • LDA主题模型

    待整理 假设文档是由n个词组成的,且不考虑词之间的关系,假设我们的词典有V个词语,v1,v2,...vv,那么最简...

  • LDA主题模型

    一、几个基础概念 1、贝叶斯理论:先验分布+数据(似然)=后验分布2、二项分布、Beta分布与共轭分布先验分布和后...

  • 主题模型LDA

    作用:对文档抽取主题概率分布思想:人类生成文章的过程如下:比如假设事先给定了这几个主题:Arts、Budgets、...

  • 12 主题模型 - 代码案例三 - scikit-learn中的

    11 主题模型 - 代码案例二 - scikit-learn中的LDA模型13 主题模型 - 代码案例四 - sc...

  • 14 主题模型 - 代码参考文档 - 1.txt\2.txt\3

    11 主题模型 - 代码案例二 - scikit-learn中的LDA模型12 主题模型 - 代码案例三 - sc...

网友评论

    本文标题:LDA 主题模型效果度量

    本文链接:https://www.haomeiwen.com/subject/nurvtxtx.html