jieba 中文分词教程

作者: mi_lan | 来源:发表于2019-12-10 21:41 被阅读0次

jieba 中文分词教程
结巴中文分词的用法
python 结巴分词
Python 结巴分词
python jieba分词库使用
python3中文jieba分词设置说明
jieba分词
关于python中jieba第三方库的使用
豆瓣评分预测
“结巴”中文分词：做最好的 Python中文分词组件

【嵌牛导读】 jieba 中文分词教程

【嵌牛鼻子】jieba 中文分词

【嵌牛提问】如何使用jieba 进行中文分词？

【嵌牛正文】

参考文章：https://www.jianshu.com/p/883c2171cdb5

jieba是目前最好的 Python 中文分词组件，它主要有以下 3 种特性：

1.支持 3 种分词模式：精确模式、全模式、搜索引擎模式

2.支持繁体分词

3.支持自定义词典

第一步导入模块

可使用jieba.cut和jieba.cut_for_search方法进行分词，两者所返回的结构都是一个可迭代的 generator，可使用 for 循环来获得分词后得到的每一个词语（unicode），或者直接使用jieba.lcut以及jieba.lcut_for_search直接返回 list。其中：

jieba.cut和jieba.lcut接受 3 个参数：

需要分词的字符串（unicode 或 UTF-8 字符串、GBK 字符串）

cut_all 参数：是否使用全模式，默认值为False

HMM 参数：用来控制是否使用 HMM 模型，默认值为True

jieba.cut_for_search和jieba.lcut_for_search接受 2 个参数：

需要分词的字符串（unicode 或 UTF-8 字符串、GBK 字符串）

HMM 参数：用来控制是否使用 HMM 模型，默认值为True

# 尽量不要使用 GBK 字符串，可能无法预料地错误解码成 UTF-8