美文网首页
中文jieba+LDA基本流程

中文jieba+LDA基本流程

作者: Silv_Kim | 来源:发表于2019-12-03 19:51 被阅读0次

    唔 最近小白新学了点点中文文本处理来处理一个paper database,总结了一点点流程(超级入门,轻喷)

    1 基本准备
    所需处理的中文文本
    用户词典 userdict
    停用词词表 stopwords

    2 可能用到的一些包
    jieba -- 分词
    gensim -- lda, dtm
    matplotlib -- 画图
    pyLDAvis -- lda 可视化
    yellowbrick -- 随便找的一个可视化 来画一下dispersion plot

    3 基本步骤

    1)jieba分词

    load userdict/stopwords
    然后分词 可能用到正则 re
    将结果写入out file中
    然后可以用jieba自带的一些keyword analysis 进行一些小小的关键词计算

    2)LDA主题模型/dtm

    from gensim import corpora, models, similarities
    然后根据需要导入ldamodel/ldaseqmodel
    具体lda/dtm的实现代码网上都有,可以直接拿来用
    这中间为了提高准确度可以用coherence model来确定topic的个数,网上有计算的代码可以直接拿来用

    3)可视化
    比较了一下这些可视化 感觉还是lda的比较靠谱一点,这里用pyLDAvis来可视化最后的结果,最后可以 save html
    当然也可以用yellow brick。这个主要我自己用的时候用两个功能,一是 token frequency 的分布计算,二是dispersion plot 来看 target word在dtm文档中出现的这个分布情况。

    具体代码可以去https://github.com/kimmy-sil/Python-beginning-practice/tree/master/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%A4%84%E7%90%86 这里看。

    相关文章

      网友评论

          本文标题:中文jieba+LDA基本流程

          本文链接:https://www.haomeiwen.com/subject/hqlcgctx.html