美文网首页Machine Learning & Recommendation & NLP & DL
自然语言处理N天-Day0201简单好用的中文分词利器 jieb

自然语言处理N天-Day0201简单好用的中文分词利器 jieb

作者: 我的昵称违规了 | 来源:发表于2019-02-09 15:03 被阅读1次

    说明:本文依据《中文自然语言处理入门实战》完成。目前网上有不少转载的课程,我是从GitChat上购买,感觉买错了……

    第二课 简单好用的中文分词利器 jieba 和 HanLP

    两个安装方式和使用
    这块的内容直接上他们github就可以看了,我特么实在懒得写。

    • jieba,之前一直在用。pip install jieba。但是问题在于其三个分词模式都只是很粗的切分,对于特定专业领域的分词处理就很鸡肋了。
    • HanLP,用过一次,是在处理WIKI文本的时候,好像对于特殊符号处理会有问题,但是其神经网络切分和NER做的很棒。pip install pyhanlp
    • 另外THULAC还没用过,看知乎上评价准确率比其余的都好,只是效率有些慢。
    • 最近2019年初汉语字形向量Glyce效果更好,所以在做的时候似乎可以多尝试一些新的模型。

    相关文章

      网友评论

        本文标题:自然语言处理N天-Day0201简单好用的中文分词利器 jieb

        本文链接:https://www.haomeiwen.com/subject/nxtzsqtx.html