jieba库的分词原理是利用一个中文词库,将待分词的内容与分词词库进行比对,通过图结构和动态规划方法找到最大概率的词组。除了分词,jieba还提供增加自定义中文单词的功能。
jieba库的安装和使用很简单
pip install jieba #安装
import jieba #引用
jieba库支持三种分词模式:
1 精确模式:将句子最精确的切开,适合文本分析。
2 全模式:把句子中所有成词的词语都扫描出来,速度非常快,但不能解决歧义。
3 搜索引擎模式: 在精确模式基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
jieba库的主要函数如下:
jieba.lcut(s) #精确模式,返回一个列表类型
jieba.lcut(s, cut_all=True) #全模式,返回一个列表类型
jieba.lcut_for_search(s) #搜索引擎模式,返回一个列表类型
jieba.add_word(w) #向分词词典中增加新词w
使用范例如下:
网友评论