7 LDA

作者: 空无_ae80 | 来源:发表于2020-08-12 11:29 被阅读0次

    LDA解释:假如有一篇文章text,通过里面的词,来确定他是什么类型的文章,如果文章中出现很多体育类的词,比如,篮球,足球之类的,那么主题模型就会把它划分为体育类的文章

    什么是LDA?

    它是一种无监督的贝叶斯模型。

    是一种主题模型,它可以将文档集中的每篇文档按照概率分布的形式给出。

    是一种无监督学习,在训练时不需要手工标注的训练集,需要的是文档集和指定主题的个数。

    是一种典型的词袋模型,它认为一篇文档是由一组词组成的集合,词与词之间没有顺序和先后关系

    LDA的目的就是要识别主题,即把文档—词汇矩阵变成文档—主题矩阵(分布)和主题—词汇矩阵(分布)

    P(词 | 文档)=P(词 | 主题)P(主题 | 文档)

    用表达式如下:

    P(w|d)=P(w|t)∗P(t|d)

    词→主题→文档

    同一主题下,某个词出现的概率,以及同一文档下,某个主题出现的概率,两个概率的乘积,可以得到某篇文档出现某个词的概率,我们在训练的时候,调整这两个分布就可以了。

    由此可以定义LDA的生成过程:

    对每篇文档,在主题分布中抽取一个主题;(相当于左图)

    对抽到的主题所对应的单词分布中随机抽取一个单词;(在右图中抽)

    重复上述过程直至遍历整篇文档中的每个单词

    3 实例

    3.1 计算文档-词汇矩阵

    N个文档组成的语料库(𝐷1,𝐷2,"……" ,𝐷𝑛),由V个词组成的词汇表。矩阵中的值表示了词𝑊𝑗 〖在文档𝐷〗𝑖 中出现的频率,主题用Z表示,下面对语料库中的每一个word随机指派一个主题编号𝑍𝑖,统计每个𝑍_𝑖下出现的word次数,可得一个主题—词汇矩阵。

    3.2 计算主题-词汇矩阵

    3.3 计算文档主题矩阵

    统计每个词代表的主题在每一个文档中出现的次数,可得出以下矩阵文档—主题矩阵

    参考:https://www.jianshu.com/p/fa97454c9ffd

    参考:https://blog.csdn.net/qq_39422642/article/details/78730662

    相关文章

      网友评论

          本文标题:7 LDA

          本文链接:https://www.haomeiwen.com/subject/rbwddktx.html