7 LDA

作者: 空无_ae80 | 来源:发表于2020-08-12 11:29 被阅读0次

7 LDA
用线性判别分析 LDA 降维
10 主题模型 - 代码案例一 - LDA主题模型初识
sklearn学习笔记——线性判别分析LDA
统计学习 - Linear Discriminant Analy
机器学习算法(LDA PCA SVD)
LDA&PCA
LDA和PCA降维总结
LDA模型分析（三）：LDA建模与求参
LDA主题模型简介(上)

LDA解释:假如有一篇文章text，通过里面的词，来确定他是什么类型的文章，如果文章中出现很多体育类的词，比如，篮球，足球之类的，那么主题模型就会把它划分为体育类的文章

什么是LDA？

它是一种无监督的贝叶斯模型。

是一种主题模型，它可以将文档集中的每篇文档按照概率分布的形式给出。

是一种无监督学习，在训练时不需要手工标注的训练集，需要的是文档集和指定主题的个数。

是一种典型的词袋模型，它认为一篇文档是由一组词组成的集合，词与词之间没有顺序和先后关系

LDA的目的就是要识别主题，即把文档—词汇矩阵变成文档—主题矩阵（分布）和主题—词汇矩阵（分布）

P(词 | 文档)=P（词 | 主题）P（主题 | 文档）

用表达式如下：

P(w|d)=P(w|t)∗P(t|d)

词→主题→文档

同一主题下，某个词出现的概率，以及同一文档下，某个主题出现的概率，两个概率的乘积，可以得到某篇文档出现某个词的概率，我们在训练的时候，调整这两个分布就可以了。

由此可以定义LDA的生成过程：

对每篇文档，在主题分布中抽取一个主题；（相当于左图）

对抽到的主题所对应的单词分布中随机抽取一个单词；（在右图中抽）

重复上述过程直至遍历整篇文档中的每个单词

3 实例

3.1 计算文档-词汇矩阵

N个文档组成的语料库（𝐷1，𝐷2，"……" ，𝐷𝑛），由V个词组成的词汇表。矩阵中的值表示了词𝑊𝑗 〖在文档𝐷〗𝑖 中出现的频率，主题用Z表示，下面对语料库中的每一个word随机指派一个主题编号𝑍𝑖，统计每个𝑍_𝑖下出现的word次数，可得一个主题—词汇矩阵。

3.2 计算主题-词汇矩阵

3.3 计算文档主题矩阵

统计每个词代表的主题在每一个文档中出现的次数，可得出以下矩阵文档—主题矩阵

参考：https://www.jianshu.com/p/fa97454c9ffd

参考:https://blog.csdn.net/qq_39422642/article/details/78730662

网友评论

本文标题：7 LDA

本文链接：https://www.haomeiwen.com/subject/rbwddktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

7 LDA

相关文章

7 LDA

用线性判别分析 LDA 降维

10 主题模型 - 代码案例一 - LDA主题模型初识

sklearn学习笔记——线性判别分析LDA

统计学习 - Linear Discriminant Analy

机器学习算法(LDA PCA SVD)

LDA&PCA

LDA和PCA降维总结

LDA模型分析（三）：LDA建模与求参

LDA主题模型简介(上)

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读