Jieba分词_3分钟热情学NLP第1篇

作者: 十三先 | 来源:发表于2021-01-13 09:18 被阅读0次

Jieba分词_3分钟热情学NLP第1篇
中文分词
NLP 学习 - 3分类问题命名实体识别
“结巴”中文分词：做最好的 Python中文分词组件
中文分词、去停用词、发现新词
python3中文jieba分词设置说明
Python中文分词工具：Jieba的基本使用
结巴中文分词的用法
python 结巴分词
全栈 - 17 NLP 使用jieba分词处理文本

第1篇：三分钟热情学NLP-Jieba分词

NLP，自然语言理解，即计算机对人类语言进行理解；NLP是人工智能皇冠上的明珠，是AI最难的领域之一；

1、人类语言有多复杂

人类语言是经过加工的，需要有有背景知识才能理解；比如

“夏天能穿多少就穿多少，冬天能传多少就穿多少”

“单身的原因是喜欢上一个人，还可能是喜欢上一个人”

可见，语言理解是1道“很有门槛”的事情，理解句子，从分词开始，

2、jieba分词-总览

jieba的git主页https://github.com/fxsjy/jieba/，目前累计有2.5W个stars了，工业级的应用，大部分使用的是jieba分词。

jieba目前支持4种模式

1、精确模式，试图将句子最精确地切开，适合文本分析；
2、全模式，把句子中所有的可以成词的词语都扫描出来, 速度非常快，但是不能解决歧义；
3、搜索引擎模式，在精确模式的基础上，对长词再次切分，提高召回率，适合用于搜索引擎分词。
4、paddle模式

paddle是百度推出的深度学习平台https://www.paddlepaddle.org.cn/，本文不做演示；

精确模式、全模式和搜索引擎模式，代码演示如下：

import jieba

strs = '我正在用三分钟热情学习自然语言处理技术'

seg_list = jieba.cut(strs, cut_all=True)
# 使用jieba.cut方法，且参数cut_all= Ture，即为全模式
print('全模式：', '/ '.join(seg_list))

seg_list = jieba.cut(strs, cut_all=False)
# 使用jieba.cut方法，且参数cut_all=False，即为精确模式
print('精确模式：', '/ '.join(seg_list))

seg_list = jieba.cut(strs)
# 使用jieba.cut方法，且参数cut_all缺省，默认精确模式
print('默认精确模式：', '/ '.join(seg_list))

seg_list = jieba.cut_for_search(strs)
# 使用cut_for_search方法，即为搜索引擎模式
print('搜索引擎模式', '/ '.join(seg_list))

运行结果：

全模式： 我/ 正在/ 用/ 三分/ 三分钟/ 分钟/ 热情/ 学习/ 自然/ 自然语言/ 语言/ 处理/ 技术
精确模式： 我/ 正在/ 用/ 三分钟/ 热情/ 学习/ 自然语言/ 处理/ 技术
默认精确模式： 我/ 正在/ 用/ 三分钟/ 热情/ 学习/ 自然语言/ 处理/ 技术
搜索引擎模式 我/ 正在/ 用/ 三分/ 分钟/ 三分钟/ 热情/ 学习/ 自然/ 语言/ 自然语言/ 处理/ 技术

3、jieba分词-自定义词典

我们可以自定义的词典，以包含 jieba 词库里没有的词，或者

import jieba
jieba.add_word('自然语言处理')

strs = '我正在用三分钟热情学习自然语言处理技术'

seg_list = jieba.cut(strs, cut_all=True)
# 使用jieba.cut方法，且参数cut_all= Ture，即为全模式
print('全模式：', '/ '.join(seg_list))

seg_list = jieba.cut(strs, cut_all=False)
# 使用jieba.cut方法，且参数cut_all=False，即为精确模式
print('精确模式：', '/ '.join(seg_list))

seg_list = jieba.cut(strs)
# 使用jieba.cut方法，且参数cut_all缺省，默认精确模式
print('默认精确模式：', '/ '.join(seg_list))

运行结果

全模式： 我/ 正在/ 用/ 三分/ 三分钟/ 分钟/ 热情/ 学习/ 自然/ 自然语言/ 自然语言处理/ 语言/ 处理/ 技术
精确模式： 我/ 正在/ 用/ 三分钟/ 热情/ 学习/ 自然语言处理/ 技术
默认精确模式： 我/ 正在/ 用/ 三分钟/ 热情/ 学习/ 自然语言处理/ 技术
搜索引擎模式 我/ 正在/ 用/ 三分/ 分钟/ 三分钟/ 热情/ 学习/ 自然/ 语言/ 处理/ 自然语言处理/ 技术

从结果中，可以看到，“自然语言处理”这个词，作为1个独立的分词出现。

网友评论

本文标题：Jieba分词_3分钟热情学NLP第1篇

本文链接：https://www.haomeiwen.com/subject/aueyaktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Jieba分词_3分钟热情学NLP第1篇

第1篇：三分钟热情学NLP-Jieba分词

1、人类语言有多复杂

2、jieba分词-总览

3、jieba分词-自定义词典

相关文章

Jieba分词_3分钟热情学NLP第1篇

中文分词

NLP 学习 - 3分类问题命名实体识别

“结巴”中文分词：做最好的 Python中文分词组件

中文分词、去停用词、发现新词

python3中文jieba分词设置说明

Python中文分词工具：Jieba的基本使用

结巴中文分词的用法

python 结巴分词

全栈 - 17 NLP 使用jieba分词处理文本

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

产品经理

大数据，机器学习，人工智能