一、数据获取
就用之前 用Python爬取美团外卖APP评论得到的文本
f=open("meituan_result.text",'r',encoding='utf-8').read()
二、数据清洗
import re
pattern = re.compile('[\u4e00-\u9fa5]+',re.S) #去除原始数据中的标点符号、字母和特殊字符
a = re.findall(pattern,f)
f=str(a) #a是列表,我们要把他转化成字符串
四、数据结构化处理
from wordcloud import WordCloud,ImageColorGenerator
import matplotlib.pyplot as plt
from os import path
import jieba
g= " ".join(jieba.cut(f))
back_coloring = imread(path.join("logo.jpg")) #选取背景图片
word_cloud = WordCloud(font_path='simsun.ttc', #设置字体
mask=back_coloring, #设置背景图片
background_color="white", #背景颜色
max_words=900, #词云显示的最大词数
max_font_size=70, #字体最大值
random_state=42)
my_wordcloud = word_cloud.generate(g) #生成词云图
image_colors = ImageColorGenerator(back_coloring) # �从背景图片生成颜色值
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()
word_cloud.to_file(path.join( "meituan.png")) # 保存图片
词云图.png
网友评论