美文网首页嵌牛IT观察
jieba 中文分词教程

jieba 中文分词教程

作者: mi_lan | 来源:发表于2019-12-10 21:41 被阅读0次

【嵌牛导读】 jieba 中文分词教程

【嵌牛鼻子】jieba  中文分词

【嵌牛提问】如何使用jieba 进行中文分词?

【嵌牛正文】

参考文章:https://www.jianshu.com/p/883c2171cdb5

jieba是目前最好的 Python 中文分词组件,它主要有以下 3 种特性:

1.支持 3 种分词模式:精确模式、全模式、搜索引擎模式

2.支持繁体分词

3.支持自定义词典

第一步 导入模块

可使用jieba.cut和jieba.cut_for_search方法进行分词,两者所返回的结构都是一个可迭代的 generator,可使用 for 循环来获得分词后得到的每一个词语(unicode),或者直接使用jieba.lcut以及jieba.lcut_for_search直接返回 list。其中:

jieba.cut和jieba.lcut接受 3 个参数:

需要分词的字符串(unicode 或 UTF-8 字符串、GBK 字符串)

cut_all 参数:是否使用全模式,默认值为False

HMM 参数:用来控制是否使用 HMM 模型,默认值为True

jieba.cut_for_search和jieba.lcut_for_search接受 2 个参数:

需要分词的字符串(unicode 或 UTF-8 字符串、GBK 字符串)

HMM 参数:用来控制是否使用 HMM 模型,默认值为True

# 尽量不要使用 GBK 字符串,可能无法预料地错误解码成 UTF-8

第二步 全模式分词

【全模式】:他/ 来到/ 上海/ 上海交通大学/ 交通/ 大学

第二步 精确模式分词

【精确模式】:他/ 来到/ 上海交通大学

相关文章

  • jieba 中文分词教程

    姓名:张国帅 学号:19021110506 【嵌牛导读】 jieba 中文分词教程 【嵌牛鼻子】jieba 中文分...

  • 结巴中文分词的用法

    jieba “结巴”中文分词:做最好的 Python 中文分词组件"Jieba" (Chinese for "to...

  • python 结巴分词

    jieba “结巴”中文分词:做最好的 Python 中文分词组件“Jieba” (Chinese for “to...

  • Python 结巴分词

    jieba “结巴”中文分词:做最好的 Python 中文分词组件 “Jieba” (Chinese for “t...

  • python jieba分词库使用

    jieba “结巴”中文分词:做最好的 Python 中文分词组件 “Jieba” (Chinese for “t...

  • python3中文jieba分词设置说明

    jieba分词的安装 在虚拟环境中 / 本地下安装 jieba jieba分词的配置 jieba中文分词的使用 进...

  • jieba分词

    参考:Python 中文分词组件 jiabaPython中文分词 jieba 十五分钟入门与进阶jieba完整文档...

  • 关于python中jieba第三方库的使用

    jieba库是优秀的中文分词第三方库。 通过 进行安装。 jieba中文分词的原理:通过中文词库的方式来识别分词。...

  • 豆瓣评分预测

    中文分词 中文分词包jieba,用jieba对原始文本做分词。 文本预处理 1. 去掉无用的字符 2. 去掉停用词...

  • “结巴”中文分词:做最好的 Python中文分词组件

    “结巴”中文分词:做最好的 Python中文分词组件 1 jieba中文分词简介: 中文分词是中文NLP的第一步,...

网友评论

    本文标题:jieba 中文分词教程

    本文链接:https://www.haomeiwen.com/subject/lflngctx.html