结巴分词基础

结巴分词基础

作者: 曦宝 | 来源:发表于2018-10-09 15:53 被阅读26次

结巴分词基础
自然语言处理（NLP）相关
结巴分词
结巴分词
使用有向无环图实现分词
常用Python中文分词工具
结巴中文分词的用法
python 结巴分词
Python 结巴分词
jieba

1.jieba.cut()

接受三个参数（sentence, cut_all=False, HMM=True）

Parameter:
  - sentence: The str(unicode) to be segmented.
  - cut_all: Model type. True for full pattern, False for accurate pattern.
  - HMM: Whether to use the Hidden Markov Model.

sentence，要被分隔的字符串，Unicode编码，utf-8是Unicode编码的一种，在这里默认时utf-8。
cut_all，模式类型。true是完全模式，false是精确模式，默认精确模式。
HMM，是否使用隐马尔科夫模型。

2.jieba.cut_for_search()，搜索引擎的细分。

接受两个参数(sentence, HMM=True)
jieba.cut以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator，可以使用 for 循环来获得分词后得到的每一个词语(unicode)，或者用
jieba.lcut 以及jieba.lcut_for_search 直接返回 list

image.png

image.png

3.jieba.load_userdict()，加载用户自定义的字典，以提高检测正确率。

image.png

f是一个纯文本文件，包含单词和频率。可以是一个类似文件的对象，或者是一个字典型的文件路径，他们必须是utf-8编码。
自定义字典的结构：
词语频率词性，用空格分开，顺序不能改变。
词性可以省略。

4.jieba.add_word()，在字典里添加一个单词。

image.png

单词，频率，词性（tag）。频率和词性都可以省略，freq默认为一个计算出来的值，以确保单词可以被删除。

5.jieba.del_word()，删除一个单词的方便方式。

image.png

从上图可以看出，把一个单词的频率变成0.

6.jieba.suggest_freq()，建议单词的频率来强迫一个单词中的字符合并或者分裂。

image.png

segment，这个词被期望被切成的部分，如果这个词应该被当作一个整体来对待，那就使用一个str。
tune，如果是true则调整单词的频率。

相关文章

结巴分词基础
1.jieba.cut() 接受三个参数（sentence, cut_all=False, HMM=True） s...
自然语言处理（NLP）相关
ヾ(◍°∇°◍)ﾉﾞ-参考结巴分词使用中文分词之结巴分词~~~附使用场景+demo（net） jieba分词、...
结巴分词
1. python环境下下载jieba分词参考网址：https://blog.csdn.net/robin_xu...
结巴分词
使用有向无环图实现分词
结巴分词如果搜索”Python 分词”，跳出来的前五个除了广告基本都包括“结巴分词”（Jieba）。可以说它是P...
常用Python中文分词工具
1. jieba 分词 “结巴” 分词，GitHub 最受欢迎的分词工具，立志做最好的 Python 中文分词组件...
结巴中文分词的用法
jieba “结巴”中文分词：做最好的 Python 中文分词组件"Jieba" (Chinese for "to...
python 结巴分词
jieba “结巴”中文分词：做最好的 Python 中文分词组件“Jieba” (Chinese for “to...
Python 结巴分词
jieba “结巴”中文分词：做最好的 Python 中文分词组件 “Jieba” (Chinese for “t...
jieba
Project description jieba “结巴”中文分词：做最好的 Python 中文分词组件 “Ji...

网友评论

本文标题：结巴分词基础

本文链接：https://www.haomeiwen.com/subject/bazeaftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|结巴分词基础|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！