中文jieba+LDA基本流程

作者: Silv_Kim | 来源:发表于2019-12-03 19:51 被阅读0次

中文jieba+LDA基本流程
React Native Install(踩过的坑）
在macOS上搭建Flutter开发环境
springboot整合activiti查看流程图片显示方块
MAC Flutter 安装流程
冲刺小技巧
工欲善其事必先利其器之OkHttp解读
firefly(暗黑世界版v1.4)教程（一）程序入口
Django基本流程
Django基本流程

唔最近小白新学了点点中文文本处理来处理一个paper database，总结了一点点流程（超级入门，轻喷）

1 基本准备
所需处理的中文文本
用户词典 userdict
停用词词表 stopwords

2 可能用到的一些包
jieba -- 分词
gensim -- lda, dtm
matplotlib -- 画图
pyLDAvis -- lda 可视化
yellowbrick -- 随便找的一个可视化来画一下dispersion plot

3 基本步骤

1）jieba分词

load userdict/stopwords
然后分词可能用到正则 re
将结果写入out file中
然后可以用jieba自带的一些keyword analysis 进行一些小小的关键词计算

2）LDA主题模型/dtm

from gensim import corpora, models, similarities
然后根据需要导入ldamodel/ldaseqmodel
具体lda/dtm的实现代码网上都有，可以直接拿来用
这中间为了提高准确度可以用coherence model来确定topic的个数，网上有计算的代码可以直接拿来用

3）可视化
比较了一下这些可视化感觉还是lda的比较靠谱一点，这里用pyLDAvis来可视化最后的结果，最后可以 save html
当然也可以用yellow brick。这个主要我自己用的时候用两个功能，一是 token frequency 的分布计算，二是dispersion plot 来看 target word在dtm文档中出现的这个分布情况。

具体代码可以去https://github.com/kimmy-sil/Python-beginning-practice/tree/master/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%A4%84%E7%90%86 这里看。