一、几个基础概念
1、贝叶斯理论:
先验分布+数据(似然)=后验分布
2、二项分布、Beta分布与共轭分布
先验分布和后验分布的形式一样的分布成为共轭分布,和二项分布共轭的分布是Beta分布。
3、多项分布和Dirichlet 分布
超过二维的Beta分布称之为狄利克雷分布,可以说Beta分布是狄利克雷分布在二维时的特殊形式。
二、LDA主题模型
文档--主题--词
目标是找到每一篇文档的主题分布和每一个主题中词的分布。
在LDA模型中,需要先假定一个主题数据K,所有的分布都基于K个主题展开。
基于LDA模型求解文档的主题分布以及每一个主题中的词分布的方法有二:一是基于Gibbs采样算法,二是基于变分推断EM算法。
三、用scikit-learn学习LDA主题模型
除了scikit-learn,还有spark MLlib和gensim库也有LDA主题模型的类库。
scikit-learn中,LDA主题模型的类在sklearn.decomposition.LatentDirichletAllocation包中,其算法实现主要基于原理篇里讲的变分推断EM算法,而没有使用基于Gibbs采样的MCMC算法实现。
而具体到变分推断EM算法,scikit-learn除了我们原理篇里讲到的标准的变分推断EM算法外,还实现了另一种在线变分推断EM算法,它在原理篇里的变分推断EM算法的基础上,为了避免文档内容太多太大而超过内存大小,而提供了分步训练(partial_fit函数),即一次训练一小批样本文档,逐步更新模型,最终得到所有文档LDA模型的方法。
网友评论