词云
导入之前采集的公共管理学院新闻的数据,使用在线工具「词悦」生成的词云如下:

词频分析报告
关键词|词频|权重
四川大学5811.0000
教授11490.9943
同学11570.9928
我院7550.9913
公共10650.9865
管理学7580.9864
老师9330.9707
学院5240.9295
专业6060.9168
学术4000.9131
讲座3340.9071
学生4370.9010
副教授2500.8955
治理3050.8951
院长2810.8947
哲学系1380.8899
哲学2640.8871
大学3490.8866
师生2560.8856
建设3900.8851
管理系2460.8782
学科2560.8762
研究生2490.8761
学习3420.8753
行政2890.8742
社会学1750.8731
姜晓2250.8696
副院长1720.8635
社会保障1940.8626
教育2820.8615
九大1360.8595
档案2080.8560
精神2620.8560
合作2650.8547
教师2210.8540
实践2290.8531
会议2230.8505
报告2300.8499
资源2490.8498
国际2510.8494
档案学790.8489
项目2290.8427
课程1880.8417
培养1890.8376
热烈1570.8375
城市2020.8359
书记1580.8355
创新1830.8318
理论1750.8312
学者1500.8309
土地1560.8275
博士1450.8272
政府1840.8264
全体1500.8258
圆满1260.8243
教学1560.8231
党员1280.8214
图书馆1200.8182
见面会830.8178
研讨会1130.8165
实习1140.8160
成都1250.8135
政治1370.8126
同志1280.8122
大会1250.8122
本科生950.8117
研究员1010.8112
学校1360.8061
中国人民大学830.8059
专家1370.8051
参观1100.8048
四川省980.8042
文化1370.8037
历史1320.8026
招生1050.8026
社工520.8021
留学生860.8016
规划1240.8016
美国1320.8003
领域1240.7997
特色1210.7996
政策1250.7993
史云980.7988
本科1050.7986
调研990.7983
主任1120.7978
论文1010.7977
成都市860.7976
党委980.7976
思想1200.7970
系主任650.7964
小组1050.7959
成果1100.7953
知识1190.7945
人才1140.7942
环节1040.7942
拓展980.7941
高校980.7939
校区790.7938
经验1240.7932
海德格尔450.7932
副书记870.7929
改革1100.7926
团队1000.7916
教职工740.7916
学会980.7901
委员会980.7868
心理学770.7868
科研930.7850
制度1030.7848
组织1120.7847
优秀1020.7846
共同1050.7837
比赛910.7835
现象学400.7832
双方940.7828
房地产880.7811
体验890.7809
典礼720.7801
党委书记660.7796
基地880.7781
案例800.7776
班主任670.7772
秘书680.7751
贯彻840.7749
素质870.7746
领导920.7736
探讨750.7718
邀请770.7714
出席740.7713
劳动800.7711
四川750.7704
答辩550.7700
年会590.7688
合影570.7678
政治学510.7673
科学810.7657
热情740.7656
习近平610.7652
硕士660.7638
思考720.7637
辅导员500.7632
精彩740.7632
宣讲会330.7622
培训790.7622
干部720.7618
何明310.7617
宣传780.7615
逻辑学370.7608
逻辑620.7606
Jieba安装、使用以及结果分析
1 Jieba的安装
Mac OS下直接打开终端输入
pip install jieba
即可安装成功
2 Jieba的使用
使用Jieba分析的文本如下
text="新航线开通后外贸进口集装箱可享受到自贸试验区保税港区和综合保税区多重政策叠加实现了天津自贸试验区功能向河北港口的延伸拓展"
全模式


全模式(Full Mode)把句子中所有的可以成词的词语都扫描出来,一些字和前后都组成了词。
精确模式


精准模式(Default Mode)将句子最精确地切开
搜索引擎模式


搜索引擎模式在精确模式的基础上,对长词再次切分
3 结果分析
从结果可以看出:
全模式(Full Mode)把句子中所有的可以成词的词语都扫描出来,但是不能解决歧义。
精准模式(Default Mode)将句子最精确地切开,适合文本分析。
搜索引擎模式 在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
4 载入词典



可以看到结果中的“自贸试验区”没有像未导入词典时那样被分开😄
调整词典
使用 add_word(word, freq=None, tag=None) 和 del_word(word) 可在程序中动态修改词典。


5 关键词提取
基于 TF-IDF 算法的关键词抽取
import jieba.analyse
jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())


基于 TextRank 算法的关键词抽取
jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
接口相同,注意默认过滤词性,使用方法基本相同


6 词性标注
jieba.posseg.POSTokenizer(tokenizer=None) 新建自定义分词器,tokenizer 参数可指定内部使用的 jieba.Tokenizer 分词器。


7 并行分词
原理:将目标文本按行分隔后,把各行文本分配到多个 Python 进程并行分词,然后归并结果,从而获得分词速度的可观提升
用法:
jieba.enable_parallel(4)# 开启并行分词模式,参数为并行进程数
jieba.disable_parallel()# 关闭并行分词模式
8 Tokenize:返回词语在原文的起止位置


参考内容:
jieba分词模块学习:https://www.jianshu.com/p/0e389247ebb0
网友评论