美文网首页我爱编程
Jieba分词&词云制作

Jieba分词&词云制作

作者: SandyMeow | 来源:发表于2018-05-26 17:39 被阅读259次

词云

导入之前采集的公共管理学院新闻的数据,使用在线工具「词悦」生成的词云如下:

使用在线词频分析工具词悦制作的词云


词频分析报告

关键词|词频|权重

四川大学5811.0000

教授11490.9943

同学11570.9928

我院7550.9913

公共10650.9865

管理学7580.9864

老师9330.9707

学院5240.9295

专业6060.9168

学术4000.9131

讲座3340.9071

学生4370.9010

副教授2500.8955

治理3050.8951

院长2810.8947

哲学系1380.8899

哲学2640.8871

大学3490.8866

师生2560.8856

建设3900.8851

管理系2460.8782

学科2560.8762

研究生2490.8761

学习3420.8753

行政2890.8742

社会学1750.8731

姜晓2250.8696

副院长1720.8635

社会保障1940.8626

教育2820.8615

九大1360.8595

档案2080.8560

精神2620.8560

合作2650.8547

教师2210.8540

实践2290.8531

会议2230.8505

报告2300.8499

资源2490.8498

国际2510.8494

档案学790.8489

项目2290.8427

课程1880.8417

培养1890.8376

热烈1570.8375

城市2020.8359

书记1580.8355

创新1830.8318

理论1750.8312

学者1500.8309

土地1560.8275

博士1450.8272

政府1840.8264

全体1500.8258

圆满1260.8243

教学1560.8231

党员1280.8214

图书馆1200.8182

见面会830.8178

研讨会1130.8165

实习1140.8160

成都1250.8135

政治1370.8126

同志1280.8122

大会1250.8122

本科生950.8117

研究员1010.8112

学校1360.8061

中国人民大学830.8059

专家1370.8051

参观1100.8048

四川省980.8042

文化1370.8037

历史1320.8026

招生1050.8026

社工520.8021

留学生860.8016

规划1240.8016

美国1320.8003

领域1240.7997

特色1210.7996

政策1250.7993

史云980.7988

本科1050.7986

调研990.7983

主任1120.7978

论文1010.7977

成都市860.7976

党委980.7976

思想1200.7970

系主任650.7964

小组1050.7959

成果1100.7953

知识1190.7945

人才1140.7942

环节1040.7942

拓展980.7941

高校980.7939

校区790.7938

经验1240.7932

海德格尔450.7932

副书记870.7929

改革1100.7926

团队1000.7916

教职工740.7916

学会980.7901

委员会980.7868

心理学770.7868

科研930.7850

制度1030.7848

组织1120.7847

优秀1020.7846

共同1050.7837

比赛910.7835

现象学400.7832

双方940.7828

房地产880.7811

体验890.7809

典礼720.7801

党委书记660.7796

基地880.7781

案例800.7776

班主任670.7772

秘书680.7751

贯彻840.7749

素质870.7746

领导920.7736

探讨750.7718

邀请770.7714

出席740.7713

劳动800.7711

四川750.7704

答辩550.7700

年会590.7688

合影570.7678

政治学510.7673

科学810.7657

热情740.7656

习近平610.7652

硕士660.7638

思考720.7637

辅导员500.7632

精彩740.7632

宣讲会330.7622

培训790.7622

干部720.7618

何明310.7617

宣传780.7615

逻辑学370.7608

逻辑620.7606


Jieba安装、使用以及结果分析

1 Jieba的安装

Mac OS下直接打开终端输入

pip install jieba

即可安装成功

2 Jieba的使用

使用Jieba分析的文本如下

text="新航线开通后外贸进口集装箱可享受到自贸试验区保税港区和综合保税区多重政策叠加实现了天津自贸试验区功能向河北港口的延伸拓展"

全模式

全模式代码 全模式分词结果

全模式(Full Mode)把句子中所有的可以成词的词语都扫描出来,一些字和前后都组成了词。

精确模式

精确模式代码 精确模式分词结果

精准模式(Default Mode)将句子最精确地切开

搜索引擎模式

搜索引擎模式代码 搜索引擎模式分词结果

搜索引擎模式在精确模式的基础上,对长词再次切分

3 结果分析

从结果可以看出:

    全模式(Full Mode)把句子中所有的可以成词的词语都扫描出来,但是不能解决歧义。

    精准模式(Default Mode)将句子最精确地切开,适合文本分析。

    搜索引擎模式 在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。

4 载入词典

自定义词典 导入自定义词典 导入词典后结果

可以看到结果中的“自贸试验区”没有像未导入词典时那样被分开😄

调整词典

使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。

在词典中加入“外贸进口集装箱” 结果

5 关键词提取

基于 TF-IDF 算法的关键词抽取

import jieba.analyse

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

提取关键词 结果

基于 TextRank 算法的关键词抽取

jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v')) 

接口相同,注意默认过滤词性,使用方法基本相同

结果

6 词性标注

jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器,tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。

结果

7 并行分词

原理:将目标文本按行分隔后,把各行文本分配到多个 Python 进程并行分词,然后归并结果,从而获得分词速度的可观提升

用法:

jieba.enable_parallel(4)# 开启并行分词模式,参数为并行进程数

jieba.disable_parallel()# 关闭并行分词模式

8 Tokenize:返回词语在原文的起止位置

参考内容:

jieba分词模块学习:https://www.jianshu.com/p/0e389247ebb0

官方文档:https://github.com/fxsjy/jieba

相关文章

网友评论

    本文标题:Jieba分词&词云制作

    本文链接:https://www.haomeiwen.com/subject/bfrmjftx.html