上篇文章《用PPT制作词云》中使用的分词文本是英文,如果针对中文,参照上篇的方法使用PPT中的Pro Word Cloud是不能形成一个正确的词云图的。
因为该插件的原理是“识别空格之间的词语,进而对其词语进行词频统计,根据词频大的词语字体大,词频小的词语字体小的原则形成词云图”,下面用一个小实验来验证一下。
将一段中文文本复制进PPT实验,产生的词云图就是一段句子。如下图所示。
如果我人为地将中文文本进行空格分隔,可以看到词云图上的词语就是我们空格分隔所形成的“词语”。
因为英文本身是有空格分隔词的,所以形成的词云没有任何问题,换成中文的话,就需要已经分好词的文本才可以。简而言之,中文比英文多了一道“加工”程序而已。
借助集搜客GooSeeker的分词打标软件来生成已经分好词的文本,操作步骤如下:
1. 登录集搜客GooSeeker分词打标软件
2. 导入数据
填写任务名称后导入包含一列数据的excel表,文件不要超过10M。
3. 进入我的任务,原数据都加载上来之后,点击“筛选词语”,筛选词语默认勾选全部,如果你不需要某个词,可以对其取消勾选。
将全部词语筛选之后,点击“选词结果”,我们的目的是得到分词结果,所以到第三步后点击下载按钮即可。会有四张表下载,这里只需要用上分词效果表。
我用集搜客GooSeeker网络爬虫在拉勾采集了一些Python软件开发的职位信息,将其中“职位标签”一列提取出来做分词处理,通过上面的分词软件下载分词结果之后,将“分词效果”表中的“分词数据”复制到了txt文档中。
然后再将txt文档中的分词文本复制到了PPT中,选中文本点击“Create Word Cloud”完成。
通过词云,我们可以直观地了解到Python软件工程师的职位标签。
· 职位范围:爬虫、数据挖掘、人工智能、机器学习、后台开发、服务器开发等
· 相辅技能:mysql、mongodb、linux、js、django、php等
· 应用领域:金融、信息安全、游戏、医疗等
如果你还有兴趣,可以再继续浏览下文,我将简单介绍一下用分词软件处理之后的四张表的用途。这四张表分别是:
1. 打标结果
2. 分词效果
3. 切词表
4. 选词结果
打标结果表是一张词与文本的矩阵关系表,左起第一列每行代表一个文本,词语在某个文本中出现一次,矩阵的值即标为1,如果未出现,即为0。这是文档的一种结构化特征表示,该表可用于做进一步的自然语言处理。
分词效果表可以看到原数据、分词数据与打标词。打标词对应文本分出的词语(去除无效词)。
切词表和选词结果都是词频统计结果,前者是软件默认对所有文本进行分词后得出的词频统计结果,后者是你将不需要的词去掉后剩下的词语的频率统计结果。如果你没有去词处理,那么两个结果表会是一样的。
词频表可以做进一步形成可视化图表,比如:python软件工程师职位标签TOP15分布情况。
PS:
本文重点解释下如何用PPT插件Pro Word Cloud对中文文本形成词云图,如果你想进一步了解分词打标软件,移步:
· 软件介绍:分词打标软件资源介绍
· 应用案例:《采集淘宝评论找出爆款关键词》
网友评论