美文网首页编程语言爱好者
WordCloud词云图去除停用词的正确方法

WordCloud词云图去除停用词的正确方法

作者: 罗罗攀 | 来源:发表于2021-03-01 11:08 被阅读0次

前言

之前我们已经学习了如何使用wordcloud制作英文和中文词云,今天我们接着讲解,在实际制作词云中,有很多词是没有展示出的意义的,例如我,他等主语,那如何不显示这些词了,这就涉及到停用词。

wordcloud自带停用词

wordcloud自带一个停用词表,是一个集合的数据类型。

from wordcloud import STOPWORDS

print(STOPWORDS)

如果我们需要添入一些其他的词的话,也很简单,直接用add或者update方法即可(因为这是集合数据)。

from matplotlib import pyplot as plt
from wordcloud import WordCloud,STOPWORDS

text = 'my is luopan. he is zhangshan'
stopwords = STOPWORDS
stopwords.add('luopan')

wc = WordCloud(stopwords=stopwords)
wc.generate(text)

plt.imshow(wc)

中文停用词使用

用wordcloud库制作中文词云图,必须要分词,所以总结下来,中文中需要设置停用词的话可以有三种方法。

  • 在分词前,将中文文本的停用词先过滤掉。
  • 分词的时候,过滤掉停用词。
  • 在wordcloud中设置stopwords。

在这里我们只讲解第三种方法,设置stopwords,我们需要先有一个中文停用词表,在网上下载即可,然后将停用词表清洗为集合数据格式。

首先我们读取停用词表的内容,设置为集合数据结构。

stopwords = set()
content = [line.strip() for line in open('hit_stopwords.txt','r').readlines()]
stopwords.update(content)
stopwords

接着,我们就对文本进行分词,制作词云图即可。

from matplotlib import pyplot as plt
from wordcloud import WordCloud
import jieba

text = '我叫罗攀,他叫关羽,我叫罗攀,他叫刘备'
cut_word = " ".join(jieba.cut(text))

stopwords = set()
content = [line.strip() for line in open('hit_stopwords.txt','r').readlines()]
stopwords.update(content)

wc = WordCloud(font_path = r'/System/Library/Fonts/Supplemental/Songti.ttc',
              stopwords = stopwords)
wc.generate(cut_word)

plt.imshow(wc)

最后,如何美化词云图,我们下期再见~

相关文章

  • WordCloud词云图去除停用词的正确方法

    前言 之前我们已经学习了如何使用wordcloud制作英文和中文词云,今天我们接着讲解,在实际制作词云中,有很多词...

  • 使用wordcloud制作精美词云图

    使用wordcloud制作精美词云图 一个简单的开始 安装库   wordcloud用来绘制词云图,是今天的主角。...

  • Pyecharts词云图制作教程

    前言 之前我们使用wordcloud库制作了词云图,今天我们就来学习另外一种制作词云图的方法,那就是pyechar...

  • Python 画好看的云词图

    一、词云图 (WordCloud) 词云图是数据分析中比较常见的一种可视化手段。词云图,也叫文字云,是对文本中出现...

  • wordcloud词云图美化

    前言 之前的文章我们已经介绍了如何使用wordcloud库制作中英文词云图,并介绍了中英文停用词的使用方法,但如何...

  • 赘婿词云图制作

    前言 之前的文章我们已经介绍了如何使用wordcloud库制作中英文词云图,并介绍了中英文停用词的使用方法,介绍了...

  • R语言可视化(二十六):词云图绘制

    26. 词云图绘制 清除当前环境中的变量 设置工作目录 使用wordcloud2包绘制词云图 使用wordclou...

  • 词云图

    Python2.7wordcloud- 英文,jieba-中文,但是不严谨matplotlibjieba 词云图,...

  • 安装wordcloud包

    前几天生成词云图,安装wordcloud包,结果遇到各种问题,折腾好久,终于安装好了,总结下。 常规方法:pip ...

  • 我与Python相遇的每天_2020-5-28 词云图

    1. 绘制词云图 ·安装软件:jieba(分词)、wordcloud(词云) ·使用到的库:matplotlib...

网友评论

    本文标题:WordCloud词云图去除停用词的正确方法

    本文链接:https://www.haomeiwen.com/subject/hvtgfltx.html