美文网首页
结巴分词基础

结巴分词基础

作者: 曦宝 | 来源:发表于2018-10-09 15:53 被阅读26次

1.jieba.cut()

接受三个参数(sentence, cut_all=False, HMM=True)

Parameter:
  - sentence: The str(unicode) to be segmented.
  - cut_all: Model type. True for full pattern, False for accurate pattern.
  - HMM: Whether to use the Hidden Markov Model.

sentence,要被分隔的字符串,Unicode编码,utf-8是Unicode编码的一种,在这里默认时utf-8。
cut_all,模式类型。true是完全模式,false是精确模式,默认精确模式。
HMM,是否使用隐马尔科夫模型。

2.jieba.cut_for_search(),搜索引擎的细分。

接受两个参数(sentence, HMM=True)
jieba.cut以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用
jieba.lcut 以及jieba.lcut_for_search 直接返回 list


image.png
image.png

3.jieba.load_userdict(),加载用户自定义的字典,以提高检测正确率。

image.png

f是一个纯文本文件,包含单词和频率。可以是一个类似文件的对象,或者是一个字典型的文件路径,他们必须是utf-8编码。
自定义字典的结构:
词语 频率 词性,用空格分开,顺序不能改变。
词性可以省略。

4.jieba.add_word(),在字典里添加一个单词。

image.png

单词,频率,词性(tag)。频率和词性都可以省略,freq默认为一个计算出来的值,以确保单词可以被删除。

5.jieba.del_word(),删除一个单词的方便方式。

image.png

从上图可以看出,把一个单词的频率变成0.

6.jieba.suggest_freq(),建议单词的频率来强迫一个单词中的字符合并或者分裂。

image.png

segment,这个词被期望被切成的部分,如果这个词应该被当作一个整体来对待,那就使用一个str。
tune,如果是true则调整单词的频率。

相关文章

  • 结巴分词基础

    1.jieba.cut() 接受三个参数(sentence, cut_all=False, HMM=True) s...

  • 自然语言处理(NLP)相关

    ヾ(◍°∇°◍)ノ゙-参考 结巴分词使用 中文分词之结巴分词~~~附使用场景+demo(net) jieba分词、...

  • 结巴分词

    1. python环境下下载jieba分词 参考网址:https://blog.csdn.net/robin_xu...

  • 结巴分词

  • 使用有向无环图实现分词

    结巴分词 如果搜索”Python 分词”,跳出来的前五个除了广告基本都包括“结巴分词”(Jieba)。可以说它是P...

  • 常用Python中文分词工具

    1. jieba 分词 “结巴” 分词,GitHub 最受欢迎的分词工具,立志做最好的 Python 中文分词组件...

  • 结巴中文分词的用法

    jieba “结巴”中文分词:做最好的 Python 中文分词组件"Jieba" (Chinese for "to...

  • python 结巴分词

    jieba “结巴”中文分词:做最好的 Python 中文分词组件“Jieba” (Chinese for “to...

  • Python 结巴分词

    jieba “结巴”中文分词:做最好的 Python 中文分词组件 “Jieba” (Chinese for “t...

  • jieba

    Project description jieba “结巴”中文分词:做最好的 Python 中文分词组件 “Ji...

网友评论

      本文标题:结巴分词基础

      本文链接:https://www.haomeiwen.com/subject/bazeaftx.html