1、现有的分词工具
中科院计算所NLPIR
ansj分词器
哈工大的LTP
清华大学THULAC
斯坦福分词器
Hanlp分词器
结巴分词
KCWS分词器(字嵌入+Bi-LSTM+CRF)
ZPar
IKAnalyzer
2、MLPIR与jieba的对比
首先,用MLPIR进行线上的分词分析。

而用MLPIR分词得出的结果为:

然后用jieba分词的结果为:


可以看出,MLPIR在分词的同时,把分词结果的词性也同时分离出来,而jieba的分词结果只是单纯的进行了分词;同时,MLPIR与jieba的分词结果也显示了两个分词工具有着不同的词库,例如“六道”在MLPIR的词库中是不存在的,所以它分出了“六”“道”,而jieba这是直接分出了“六道”这个词。
3、jieba分词练习
3.1关键词的提取

运行结果为:

网友评论