说明:本文依据《中文自然语言处理入门实战》完成。目前网上有不少转载的课程,我是从GitChat上购买,感觉买错了……
第二课 简单好用的中文分词利器 jieba 和 HanLP
两个安装方式和使用
这块的内容直接上他们github就可以看了,我特么实在懒得写。
- jieba,之前一直在用。pip install jieba。但是问题在于其三个分词模式都只是很粗的切分,对于特定专业领域的分词处理就很鸡肋了。
- HanLP,用过一次,是在处理WIKI文本的时候,好像对于特殊符号处理会有问题,但是其神经网络切分和NER做的很棒。pip install pyhanlp
- 另外THULAC还没用过,看知乎上评价准确率比其余的都好,只是效率有些慢。
- 最近2019年初汉语字形向量Glyce效果更好,所以在做的时候似乎可以多尝试一些新的模型。
网友评论