美文网首页
结巴分词基础

结巴分词基础

作者: 曦宝 | 来源:发表于2018-10-09 15:53 被阅读26次

    1.jieba.cut()

    接受三个参数(sentence, cut_all=False, HMM=True)

    Parameter:
      - sentence: The str(unicode) to be segmented.
      - cut_all: Model type. True for full pattern, False for accurate pattern.
      - HMM: Whether to use the Hidden Markov Model.
    

    sentence,要被分隔的字符串,Unicode编码,utf-8是Unicode编码的一种,在这里默认时utf-8。
    cut_all,模式类型。true是完全模式,false是精确模式,默认精确模式。
    HMM,是否使用隐马尔科夫模型。

    2.jieba.cut_for_search(),搜索引擎的细分。

    接受两个参数(sentence, HMM=True)
    jieba.cut以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用
    jieba.lcut 以及jieba.lcut_for_search 直接返回 list


    image.png
    image.png

    3.jieba.load_userdict(),加载用户自定义的字典,以提高检测正确率。

    image.png

    f是一个纯文本文件,包含单词和频率。可以是一个类似文件的对象,或者是一个字典型的文件路径,他们必须是utf-8编码。
    自定义字典的结构:
    词语 频率 词性,用空格分开,顺序不能改变。
    词性可以省略。

    4.jieba.add_word(),在字典里添加一个单词。

    image.png

    单词,频率,词性(tag)。频率和词性都可以省略,freq默认为一个计算出来的值,以确保单词可以被删除。

    5.jieba.del_word(),删除一个单词的方便方式。

    image.png

    从上图可以看出,把一个单词的频率变成0.

    6.jieba.suggest_freq(),建议单词的频率来强迫一个单词中的字符合并或者分裂。

    image.png

    segment,这个词被期望被切成的部分,如果这个词应该被当作一个整体来对待,那就使用一个str。
    tune,如果是true则调整单词的频率。

    相关文章

      网友评论

          本文标题:结巴分词基础

          本文链接:https://www.haomeiwen.com/subject/bazeaftx.html