jieba分词的安装与使用

作者: 呆萌的我爱丽丝 | 来源:发表于2020-06-02 22:12 被阅读0次

python3中文jieba分词设置说明
text classification
金伟的python学习笔记--分词与词云
jieba分词的安装与使用
文本分析——准备工作
Python一些库的基本使用
Python 分词工具 jieba
分词练习
mmseg4j/jieba中文分词包体验，以及词云分析
Python jieba分词

Jieba是一个中文分词组件，可用于中文句子/词性分割、词性标注、未登录词识别，支持用户词典等功能。该组件的分词精度达到了97%以上。

Anaconda创建环境：

//下面是创建python=3.6版本的环境，取名叫py36

conda create -n py36 python=3.6

Windows中使用conda activate激活环境

在Python里安装Jieba中文分词组件

1）下载Jieba

官网地址：http://pypi.python.org/pypi/jieba/

个人地址：http://download.csdn.net/detail/sanqima/9470715

2）将其解压到D:\TDDownload,如图(1)所示：

点击电脑桌面的左下角的【开始】—》运行 —》输入: cmd —》切换到Jieba所在的目录，比如,D:\TDDownload\Jieba，依次使用如下命令：

C:\Users\Administrator>D:

D:\>cd D:\TDDownload\jieba-0.35

D:\TDDownload\jieba-0.35>python setup.py install

01 Jieba的三种分词模式

Jieba提供了三种分词模式：

精确模式：试图将句子最精确地切开，适合文本分析。

全模式：把句子中所有可以成词的词语都扫描出来，速度非常快，但是不能解决歧义。

搜索引擎模式：在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。

下面是使用这三种模式的对比。

import jieba

sent = '中文分词是文本处理不可或缺的一步!'

seg_list = jieba.cut(sent, cut_all=True)

print('全模式：', '/ '.join(seg_list))

seg_list = jieba.cut(sent, cut_all=False)

print('精确模式：', '/ '.join(seg_list))

seg_list = jieba.cut(sent)

print('默认精确模式：', '/ '.join(seg_list))

seg_list = jieba.cut_for_search(sent)

print('搜索引擎模式', '/ '.join(seg_list))

运行结果如下：

全模式：

中文/分词/是/文本/文本处理/本处/处理/不可/不可或缺/或缺/的/一步//

精确模式：

中文/分词/是/文本处理/不可或缺/的/一步/！

默认精确模式：

中文/分词/是/文本处理/不可或缺/的/一步/！

搜索引擎模式：

中文/分词/是/文本/本处/处理/文本处理/不可/或缺/不可或缺/的/一步/！

可以看到，全模式和搜索引擎模式下，Jieba将会把分词的所有可能都打印出来。一般直接使用精确模式即可，但是在某些模糊匹配场景下，使用全模式或搜索引擎模式更适合。

https://blog.csdn.net/zw0Pi8G5C1x/article/details/88706653

https://blog.csdn.net/sanqima/article/details/50965439

https://blog.csdn.net/sinat_37676560/article/details/90794659

网友评论

本文标题：jieba分词的安装与使用

本文链接：https://www.haomeiwen.com/subject/otraohtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

jieba分词的安装与使用

相关文章

python3中文jieba分词设置说明

text classification

金伟的python学习笔记--分词与词云