1.jieba.cut()
接受三个参数(sentence, cut_all=False, HMM=True)
Parameter:
- sentence: The str(unicode) to be segmented.
- cut_all: Model type. True for full pattern, False for accurate pattern.
- HMM: Whether to use the Hidden Markov Model.
sentence,要被分隔的字符串,Unicode编码,utf-8是Unicode编码的一种,在这里默认时utf-8。
cut_all,模式类型。true是完全模式,false是精确模式,默认精确模式。
HMM,是否使用隐马尔科夫模型。
2.jieba.cut_for_search(),搜索引擎的细分。
接受两个参数(sentence, HMM=True)
jieba.cut以及 jieba.cut_for_search 返回的结构都是一个可迭代的 generator,可以使用 for 循环来获得分词后得到的每一个词语(unicode),或者用
jieba.lcut 以及jieba.lcut_for_search 直接返回 list
image.png
image.png
3.jieba.load_userdict(),加载用户自定义的字典,以提高检测正确率。
image.pngf是一个纯文本文件,包含单词和频率。可以是一个类似文件的对象,或者是一个字典型的文件路径,他们必须是utf-8编码。
自定义字典的结构:
词语 频率 词性,用空格分开,顺序不能改变。
词性可以省略。
4.jieba.add_word(),在字典里添加一个单词。
image.png单词,频率,词性(tag)。频率和词性都可以省略,freq默认为一个计算出来的值,以确保单词可以被删除。
5.jieba.del_word(),删除一个单词的方便方式。
image.png从上图可以看出,把一个单词的频率变成0.
6.jieba.suggest_freq(),建议单词的频率来强迫一个单词中的字符合并或者分裂。
image.pngsegment,这个词被期望被切成的部分,如果这个词应该被当作一个整体来对待,那就使用一个str。
tune,如果是true则调整单词的频率。
网友评论