LDA主题模型

作者: 喝奶茶不加奶茶 | 来源:发表于2020-10-25 11:11 被阅读0次

10 主题模型 - 代码案例一 - LDA主题模型初识
词典构造方法之LDA主题模型
LDA主题模型
LDA主题模型
LDA主题模型
LDA主题模型
主题模型LDA
12 主题模型 - 代码案例三 - scikit-learn中的
14 主题模型 - 代码参考文档 - 1.txt\2.txt\3
13 主题模型 - 代码案例四 - scikit-learn中的

一、几个基础概念

1、贝叶斯理论：
先验分布+数据（似然）=后验分布
2、二项分布、Beta分布与共轭分布
先验分布和后验分布的形式一样的分布成为共轭分布，和二项分布共轭的分布是Beta分布。
3、多项分布和Dirichlet 分布
超过二维的Beta分布称之为狄利克雷分布，可以说Beta分布是狄利克雷分布在二维时的特殊形式。

二、LDA主题模型

文档--主题--词
目标是找到每一篇文档的主题分布和每一个主题中词的分布。

在LDA模型中，需要先假定一个主题数据K，所有的分布都基于K个主题展开。

基于LDA模型求解文档的主题分布以及每一个主题中的词分布的方法有二:一是基于Gibbs采样算法，二是基于变分推断EM算法。

三、用scikit-learn学习LDA主题模型

除了scikit-learn,还有spark MLlib和gensim库也有LDA主题模型的类库。
scikit-learn中，LDA主题模型的类在sklearn.decomposition.LatentDirichletAllocation包中，其算法实现主要基于原理篇里讲的变分推断EM算法，而没有使用基于Gibbs采样的MCMC算法实现。
而具体到变分推断EM算法，scikit-learn除了我们原理篇里讲到的标准的变分推断EM算法外，还实现了另一种在线变分推断EM算法，它在原理篇里的变分推断EM算法的基础上，为了避免文档内容太多太大而超过内存大小，而提供了分步训练(partial_fit函数)，即一次训练一小批样本文档，逐步更新模型，最终得到所有文档LDA模型的方法。

网友评论

zhaoyqiu的数据分析进阶之路2.0

本文标题：LDA主题模型

本文链接：https://www.haomeiwen.com/subject/htigmktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

LDA主题模型

一、几个基础概念

二、LDA主题模型

三、用scikit-learn学习LDA主题模型

相关文章

10 主题模型 - 代码案例一 - LDA主题模型初识

词典构造方法之LDA主题模型

LDA主题模型

LDA主题模型

LDA主题模型

LDA主题模型

主题模型LDA

12 主题模型 - 代码案例三 - scikit-learn中的

14 主题模型 - 代码参考文档 - 1.txt\2.txt\3

13 主题模型 - 代码案例四 - scikit-learn中的

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

zhaoyqiu的数据分析进阶之路2.0