美文网首页
未明学院:技能帖 | 词云图前置--jieba分词

未明学院:技能帖 | 词云图前置--jieba分词

作者: 未明学院 | 来源:发表于2019-12-27 16:30 被阅读0次

在自然语言处理过程中,为了能更好地处理句子,往往需要把句子拆开分成一个一个的词语,以便更好地分析句子的特性,这个过程叫分词。

怎么分词?利用jieba中文分词组件。

三种jieba切词模式介绍

jieba切词有三种模式的选择,分别为全模式,精准模式,搜索引擎模式

1.全模式:

把句子中所有的可以成词的词语都扫描处理,速度非常快,但是不能解决歧义。

2.精准模式:

试图将句子最精确地切开,适合文本分析。

3.搜索引擎模式:

在精确模式的基础上,对长词再次切分,提高召回率,适合用于引擎分词.

具体流程

Step01

1.首先导入jieba库。


2.添加词典。

比如我们不希望在精准模式下,中国科学院计算所不被切开,我们可以将其添加进词典。

接下来就可以运用上面知识点,对文章词语的词频进行提取(关键词)了。

Step02

1.首先读入我们的数据。

2.然后利用结巴进行切词。

3.删除标点符号

如果你看到很多的标点符号,别慌,他们是可以被删除的。

 Step03

1.删除标点符号后,就可以对词语进行词频的统计了。

2.过滤日常用语

你会发现有很多,类似于“之,与,中,有”这类高频出现,扰乱视线的日常用语,所以我们选择使用停用词将他们过滤。

这样我们就把停用词过滤了,就能提取文章中词频比较高的一些词并对其进行分析,或者绘制词云图了。

相关文章

  • 未明学院:技能帖 | 词云图前置--jieba分词

    在自然语言处理过程中,为了能更好地处理句子,往往需要把句子拆开分成一个一个的词语,以便更好地分析句子的特性,这个过...

  • 我与Python相遇的每天_2020-5-28 词云图

    1. 绘制词云图 ·安装软件:jieba(分词)、wordcloud(词云) ·使用到的库:matplotlib...

  • 利用jieba分词,构建词云图

    注:参考文档 一、在线词云图工具# (1)、使用### 在正式使用jieba分词之前,首先尝试用在线分词工具来将自...

  • Python jieba分词

    1.安装jieba分词 2.切词的方法:jieba.cut() 和 jieba.cut_for_search() ...

  • python3中文jieba分词设置说明

    jieba分词的安装 在虚拟环境中 / 本地下安装 jieba jieba分词的配置 jieba中文分词的使用 进...

  • R语言-15词云图绘制

    绘制词云图所用包为worldcloud, 绘制词云图第一步是中文分词,中文分词包中最出名的是Rwordseg和ji...

  • jieba python中文分词库快速入门

    jieba python中文分词库快速入门 关键词提取

  • 小bug记

    jieba分词 jieba分词,很好的中文分词库。前一段时间我用它来检测网页的敏感词。遇到几个问题,记一下。 辣妈...

  • 词云图

    Python2.7wordcloud- 英文,jieba-中文,但是不严谨matplotlibjieba 词云图,...

  • 关键词抽取

    五种关键词抽取 工具 1、jieba GitHub - fxsjy/jieba: 结巴中文分词 2、hanlp G...

网友评论

      本文标题:未明学院:技能帖 | 词云图前置--jieba分词

      本文链接:https://www.haomeiwen.com/subject/wxmdoctx.html