词云-wordcloud

作者: zx576 | 来源:发表于2017-04-12 09:23 被阅读525次

本周为大家带来炫酷好玩的 wordcloud 词云构造库。
使用 wordcloud 可以做出这样的图片：

还可以做出这样的：

接下来，我们来学习如何制作属于自己的词云图。
本来想说一句，安装过程不表，直接进入正题，可是在编程教室的QQ群和微信群中都有人遇到wordcloud 安装失败的问题。
所以在此简单提一下安装过程：
当然最直接的是 pip pip install wordcloud

但很多同学会发现直接 pip 是会报错的，所以这里提供第二种安装方式：
下载 whl 手动安装包：http://www.lfd.uci.edu/~gohlke/pythonlibs/#wordcloud
静静等待页面加载完成，然后选择适合自己 Python 的 wordcloud 版本，最后运行以下命令。filepath 替换为你的安装文件完整路径。

pip install filepath\wordcloud-1.2.1-cp35-cp35m-win_amd64.whl

wordcloud 在安装过程中会自动安装其依赖的库。
基本的用法
我们读入一本英文小说，取其中的词汇生成一张词云图


# 导入 wordcloud 模块和 matplotlib 模块
from wordcloud import WordCloud
import matplotlib.pyplot as plt

# 读入一部英文小说 txt 文件，这里以 简爱 作为例子
text = open('Jane Eyre.txt','r').read()

# 生成词云
wordcloud = WordCloud().generate(text)

# 显示词云图片
plt.imshow(wordcloud)
plt.axis('off')
plt.show()

# 保存图片
wordcloud.to_file('test.jpg')

结果如图所示

运行脚本之后就可以看到生成的图片了，是不是很简单。本文主要讲 wordcloud。代码中涉及到的 matplotlib 就不做更详细解释。
除了直接读入文本生成词云，也可以使用字典格式的词频作为输入

# 读入一组词频字典文件
text_dict = {   'you': 2993,   'and': 6625,   'in': 2767,   'was': 2525,   'the': 7845,}
wordcloud = WordCloud().generate_from_frequencies(text_dict)

还可以将词云填充到指定的形状之中。为达到填充指定形状的效果，需要使用 png 格式的图片。

# 读入图片
from scipy.misc import imread
bg_pic = imread('Anne_Hathaway.png')
# 配置词云参数
wc = WordCloud(
            # 设置字体
            font_path = 'BeaverScratches.ttf',
            # 设置背景色
            background_color='white',
            # 允许最大词汇
            max_words=200,
            # 词云形状
            mask=bg_pic,
            # 最大号字体
            max_font_size=100,
            )

最后的效果如下

还可以结合 jieba分词，实现用中文填充的词云图（如果不通过分词，无法直接生成正确的中文词云）。使用中文填充时一定得指定中文的字体，否则会出现乱码。如果报错找不到字体，就复制一个中文字体文件放在代码目录下。


#-*- coding:utf-8 -*-
from scipy.misc import imread
import matplotlib.pyplot as plt
from wordcloud import WordCloud
import jieba
from collections import Counter

# 读入 西游记 txt 文件，windows 下过滤编码错误
text = open('西游记.txt',encoding='utf-8',errors='ignore').read()

# 使用 jieba 分词
text_jieba = list(jieba.cut(text))

# 使用 counter 做词频统计，选取出现频率前 100 的词汇
c = Counter(text_jieba)
common_c = c.most_common(100)

''' 读入数据类似下表
{
'行者': 3949, 
'的': 4819, 
'在': 2475, 
'罢': 510, 
'叫': 858, 
'无': 380, 
'那里': 696,
}
'''

# 读入女神图片
bg_pic = imread('Anne_Hathaway.png')

# 配置词云参数 
wc = WordCloud(
            # 设置字体
            font_path = '李旭科书法1.4.ttf',
            # 设置背景色
            background_color='white',
            # 允许最大词汇
            max_words=200,
            # 词云形状
            mask=bg_pic,
            # 最大号字体
            max_font_size=100,
            )


# 生成词云
wc.generate_from_frequencies(dict(common_c))

# 生成图片并显示
plt.figure()
plt.imshow(wc)
plt.axis('off')
plt.show()

# 保存图片
wc.to_file('anne.jpg')

最终的结果：

关于 wordcloud 的一些基本的常用的方法就在这里。想了解更多特性的同学，可以访问官方网站： https://amueller.github.io/word_cloud/

欢迎加入 Crossin的编程教室
crossincode.com
新手入门QQ群：522415386
微信请加 crossin11 留言入群(新手/进阶)

网友评论

cheryl_05c3:可是中文作为关键字报错啊，开头加了utf-8那句也不行诶

本文标题：词云-wordcloud

本文链接：https://www.haomeiwen.com/subject/kmipattx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

词云-wordcloud

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Tools

生活不易我用python

词云-wordcloud

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

Tools

生活不易 我用python

生活不易我用python