之前有说过pLSA模型,这是一个链式模型,这个模型能够快速生成主题,但是也有它的不足之处(毕竟是1999年左右提出的嘛!),一个很致命的缺点就是不能解决一词多义的问题。 这样就不能很好的区分主题的个数了。(但是不能否认这确确实实是一个经典的模型,花了很长时间去看,通过这个模型我才接下来看到更经典的LDA模型)。所以在这里和大家分享一个可以说是文本主题模型里面最为经典的模型之一-----------------LDA模型。提出这个模型的那篇英文原版论文引用次数已经是用万来计数的。。。。。。。很恐怖(比我们这种为了发一篇论文苦苦搜锻炼脑细胞的强太多 手动流汗 流汗 流汗)
1.游戏规则
看懂这个模型的话需要对照着PLDA模型来看,就在上一篇文档里面吧!
有一个很神奇的学派叫做贝叶斯学派(这个模型实际上是在PLSA模型上加上贝叶斯框架形成的,至于什么叫贝叶斯框架,那就得说Beta/Dirichlet分布了,也在之前的文章有),这个学派对于PLSA模型是有意见滴!他们觉得doc-topic之中 θm 和 topic-word 之中 ϕ~k都是模型之中的参数,既然都是参数,怎么能没有先验分布呢? 为了装个逼,他们进行如下改造:
类似于Unigram Model 的贝叶斯改造,我们也可以在如下两
Gibbs Sampling
( 哎呦,看到这个是不是有点熟悉,嘿嘿前面的文章专门有介绍吉布斯采样。说过这个采样确实是非常经典的方法!)
使用上面两个公式就可以推导出吉布斯采样公式
利用LDA模型进行训练和推导
学习LDA模型说到底就是为了用嘛,其实说句实在话,在工程上, 利用LDA模型进行文本主题检测就是一段代码的事,网上有用C/C++,JAVA,Python编好的代码,但是对于想用这个模型进行创新的话就得学习它的理论知识,并且知道它的整个流程,才有机会结合具体情况对模型进行创新,改造。(写论文的苦逼之处啊!)
最后一句费曼的名言和大家分享,探索之路还很长............
What I cannot create, I do not understand.
— Richard Feynman
网友评论
LDA数学八卦