jieba分词介绍

作者: 似水流年_yt | 来源:发表于2019-04-17 12:58 被阅读0次

金伟的python学习笔记--分词与词云
python实战，中文自然语言处理，应用jieba库来统计文本词
jieba分词介绍
python3中文jieba分词设置说明
Python 带你走进哈利波特的魔法世界
Python带你走进哈利波特的魔法世界
第3章中文分词技术
结巴中文分词的用法
python 结巴分词
Python 结巴分词

Python中分分词工具很多，包括盘古分词、Yaha分词、Jieba分词、清华THULAC等。它们的基本用法都大同小异，这里先了解一下结巴分词

一.安装

pip install jieba

jieba -v

二、分词模式

结巴中文分词支持的三种分词模式包括：

(1) 精确模式：试图将句子最精确地切开，适合文本分析；

(2) 全模式：把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义问题；

(3) 搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

分词模式

三.新词识别

新词识别

四.自定义词典

自定义词典

可以看到，结巴分词工具认出了专有名词”太和殿”，但没有认出”乾清宫”和”黄琉璃瓦”。也就是说，专有名词”乾清宫”和”黄琉璃瓦”可能因分词而分开，这也是很多分词工具的一个缺陷。为此，Jieba分词支持开发者使用自定定义的词典，以便包含jieba词库里没有的词语。虽然结巴有新词识别能力，但自行添加新词可以保证更高的正确率，尤其是专有名词。