美文网首页java全栈
ElasticSearch 中文分词器对比

ElasticSearch 中文分词器对比

作者: 阳关彩虹小白马 | 来源:发表于2021-02-28 15:08 被阅读0次

    常用的中文分词器

    • Smart Chinese Analysis:官方提供的中文分词器,不好用。
    • IK Analyzer:免费开源的java分词器,目前比较流行的中文分词器之一,简单、稳定,想要特别好的效果,需要自行维护词库,支持自定义词典。
    • 结巴分词:开源的python分词器,github有对应的java版本,有自行识别新词的功能,支持自定义词典。
    • Ansj中文分词:基于n-Gram+CRF+HMM的中文分词的java实现,免费开源,支持应用自然语言处理。
    • hanlp:免费开源,国人自然处理语言牛人无私奉献的。

    对以上分词器进行了一个粗略对比:

    分词器 优势 劣势
    Smart Chinese Analysis 官方插件 中文分词效果惨不忍睹
    IK Analyzer 简单易用,支持自定义词典和远程词典 词库需要自行维护,不支持词性识别
    结巴分词 新词识别功能 不支持词性识别
    Ansj中文分词 分词精准度不错,支持词性识别 对标hanlp词库略少,学习成本高
    Hanlp 目前词库最完善,支持的特性非常多 需要更优的分词效果,学习成本高

    截止到目前为止,他们的分词准确性从高到低依次是:

    hanlp > ansj > 结巴 > IK > Smart Chinese Analysis
    

    结合准确性来看,选用中文分词器基于以下考虑:

    • 官方的Smart Chinese Analysis直接可以不考虑了

    • 对搜索要求不高的建议选用 IK 学习成本低,使用教程多,还支持远程词典

    • 对新词识别要求高的选用结巴分词

    • Ansj和hanlp均基于自然处理语言,分词准确度高,活跃度来讲hanlp略胜一筹


    IK Analyzer

    截止目前,IK分词器插件的优势是支持自定义热更新远程词典。
    IK分词器的github地址:

    https://github.com/medcl/elasticsearch-analysis-ik


    hanlp 中文分词器

    hanlp中文分词器的官网为:

    https://www.hanlp.com/

    hanlp中文分词器的github地址为:

    https://github.com/hankcs/HanLP

    相关文章

      网友评论

        本文标题:ElasticSearch 中文分词器对比

        本文链接:https://www.haomeiwen.com/subject/vrjafltx.html