神奇的LDA主题模型

作者: 杰伦哎呦哎呦 | 来源:发表于2017-04-27 23:12 被阅读1084次

之前有说过pLSA模型,这是一个链式模型,这个模型能够快速生成主题,但是也有它的不足之处(毕竟是1999年左右提出的嘛!),一个很致命的缺点就是不能解决一词多义的问题。 这样就不能很好的区分主题的个数了。(但是不能否认这确确实实是一个经典的模型,花了很长时间去看,通过这个模型我才接下来看到更经典的LDA模型)。所以在这里和大家分享一个可以说是文本主题模型里面最为经典的模型之一-----------------LDA模型。提出这个模型的那篇英文原版论文引用次数已经是用万来计数的。。。。。。。很恐怖(比我们这种为了发一篇论文苦苦搜锻炼脑细胞的强太多   手动流汗 流汗 流汗)

1.游戏规则

看懂这个模型的话需要对照着PLDA模型来看,就在上一篇文档里面吧!

有一个很神奇的学派叫做贝叶斯学派(这个模型实际上是在PLSA模型上加上贝叶斯框架形成的,至于什么叫贝叶斯框架,那就得说Beta/Dirichlet分布了,也在之前的文章有),这个学派对于PLSA模型是有意见滴!他们觉得doc-topic之中 θm 和  topic-word  之中  ϕ~k都是模型之中的参数,既然都是参数,怎么能没有先验分布呢? 为了装个逼,他们进行如下改造:

类似于Unigram Model  的贝叶斯改造,我们也可以在如下两

Gibbs Sampling

  ( 哎呦,看到这个是不是有点熟悉,嘿嘿前面的文章专门有介绍吉布斯采样。说过这个采样确实是非常经典的方法!)


使用上面两个公式就可以推导出吉布斯采样公式

利用LDA模型进行训练和推导

     学习LDA模型说到底就是为了用嘛,其实说句实在话,在工程上,  利用LDA模型进行文本主题检测就是一段代码的事,网上有用C/C++,JAVA,Python编好的代码,但是对于想用这个模型进行创新的话就得学习它的理论知识,并且知道它的整个流程,才有机会结合具体情况对模型进行创新,改造。(写论文的苦逼之处啊!)

  

最后一句费曼的名言和大家分享,探索之路还很长............

                           What I cannot create, I do not understand.

                                                                                   — Richard Feynman

相关文章

  • 神奇的LDA主题模型

    之前有说过pLSA模型,这是一个链式模型,这个模型能够快速生成主题,但是也有它的不足之处(毕竟是1999年左右提出...

  • 10 主题模型 - 代码案例一 - LDA主题模型初识

    08 主题模型 - LDA09 主题模型 - LDA参数学习-Gibbs采样 安装 lda 库使用第三方的lda库...

  • 词典构造方法之LDA主题模型

    词典构造方法之LDA主题模型 主题模型LDA原理理解 LDA是一种非监督学习技术,可以用来识别大规模文档集(doc...

  • LDA主题模型

    LDA数学八卦学习笔记 数学知识 Gamma函数 Gamma函数的性质其可以看作阶乘在实数集上的扩展 Gamma分...

  • LDA主题模型

    JGibbLDA是Java版本的LDA算法,可以通过命令行的方式使用,也可以通过通过调用LDACmdOption中...

  • LDA主题模型

    待整理 假设文档是由n个词组成的,且不考虑词之间的关系,假设我们的词典有V个词语,v1,v2,...vv,那么最简...

  • LDA主题模型

    一、几个基础概念 1、贝叶斯理论:先验分布+数据(似然)=后验分布2、二项分布、Beta分布与共轭分布先验分布和后...

  • 主题模型LDA

    作用:对文档抽取主题概率分布思想:人类生成文章的过程如下:比如假设事先给定了这几个主题:Arts、Budgets、...

  • 12 主题模型 - 代码案例三 - scikit-learn中的

    11 主题模型 - 代码案例二 - scikit-learn中的LDA模型13 主题模型 - 代码案例四 - sc...

  • 14 主题模型 - 代码参考文档 - 1.txt\2.txt\3

    11 主题模型 - 代码案例二 - scikit-learn中的LDA模型12 主题模型 - 代码案例三 - sc...

网友评论

本文标题:神奇的LDA主题模型

本文链接:https://www.haomeiwen.com/subject/fxonzttx.html