自定义长词,能够被jieba分出来。
自定义短词,和重新组合字的新词,不能被结巴分出。
即,自定义词典中的词只能是结巴分出的词的组合,否则没有任何效果。
测试代码:
#encoding=utf-8
import jieba
import os
import sys
test_text="电话号码查询"
#精确模式
seg_list = jieba.cut(test_text,cut_all=False)
seg_list =" ".join(seg_list)
print "cut_all=False: "+seg_list
#全模式
seg_list2 = jieba.cut(test_text,cut_all=True)
seg_list2 =" ".join(seg_list2)
print "cut_all=True: "+seg_list2
# 搜索引擎模式
seg_list3 = jieba.cut_for_search(test_text)
seg_list3 =" ".join(seg_list3)
print "cut_for_search: "+seg_list3
自定义三个字的词:
jieba.add_word("电话号")
结果:
cut_all=False: 电话号码 查询
cut_all=True: 电话 电话号 电话号码 号码 查询
cut_for_search: 电话 号码 电话号 电话号码 查询
自定义短词:
jieba.add_word("电")
结果:
cut_all=False: 电话号码 查询
cut_all=True: 电话 电话号码 号码 查询
cut_for_search: 电话 号码 电话号码 查询
自定义长词:
jieba.add_word("电话号码查询")
结果:
cut_all=False: 电话号码查询
cut_all=True: 电话 电话号码 电话号码查询 号码 查询
cut_for_search: 电话 号码 查询 电话号码查询
网友评论