在自然语言处理过程中,为了能更好地处理句子,往往需要把句子拆开分成一个一个的词语,以便更好地分析句子的特性,这个过程叫分词。
怎么分词?利用jieba中文分词组件。
三种jieba切词模式介绍
jieba切词有三种模式的选择,分别为全模式,精准模式,搜索引擎模式。
1.全模式:
把句子中所有的可以成词的词语都扫描处理,速度非常快,但是不能解决歧义。
2.精准模式:
试图将句子最精确地切开,适合文本分析。
3.搜索引擎模式:
在精确模式的基础上,对长词再次切分,提高召回率,适合用于引擎分词.
具体流程
Step01
1.首先导入jieba库。
2.添加词典。
比如我们不希望在精准模式下,中国科学院计算所不被切开,我们可以将其添加进词典。
接下来就可以运用上面知识点,对文章词语的词频进行提取(关键词)了。
Step02
1.首先读入我们的数据。
2.然后利用结巴进行切词。
3.删除标点符号
如果你看到很多的标点符号,别慌,他们是可以被删除的。
Step03
1.删除标点符号后,就可以对词语进行词频的统计了。
2.过滤日常用语
你会发现有很多,类似于“之,与,中,有”这类高频出现,扰乱视线的日常用语,所以我们选择使用停用词将他们过滤。
这样我们就把停用词过滤了,就能提取文章中词频比较高的一些词并对其进行分析,或者绘制词云图了。
网友评论