美文网首页
Elasticsearch入门笔记4一IK分词器

Elasticsearch入门笔记4一IK分词器

作者: 小名源治 | 来源:发表于2022-12-04 08:24 被阅读0次

    IK分词器:中文分词器

    分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个个匹配操作,默认的中文分词是将每个字看成一个词,比如“我爱狂神”会被分为”我”,”爱”,”狂”,”神” ,这显然是不符合要求的,所以我们需要安装中文分词器ik来解决这个问题。

    IK提供了两个分词算法: ik_smart和ik_max_word ,其中ik_smart为最粗粒度的拆分, ik_max_word为最细粒度划分!

    • ik_max_word 会将文本做最细粒度的拆分
      比如会将「中华人民共和国国歌」拆分为:中华人民共和国、中华人民、中华、华人、人民共和国、人民、人、民、共和国、共和、和、国国、国歌,会穷尽各种可能的组合;

    • ik_smart 最粗粒度的拆分
      比如会将「中华人民共和国国歌」拆分为:中华人民共和国、国歌。

    下载地址
    日志文件中出现此日志就说明ik分词器安装成功了

    image.png

    在命令行进入bin目录下,输入命令elasticsearch-plugin list,就能看到我们加载的分词器。

    image.png

    结合kibana测试使用ik分词器

    ik_smart 最粗粒度 和 ik_max_word 最细粒度


    image.png

    ik分词器的字典

    我们通过查看ik分词器的配置文件,可以知道,用于分词的依据是在配置文件中的一个个.dic的字典文件。当然我们也可以添加自己的字典。


    image.png

    新建一个自己的dic文件,zlw.dic,里面添加一个词条“叫小明”,然后去IKAnalyzer.cfg的xml文件中,将zlw.dic添加进去,然后重启kibana和es测试。


    image.png
    image.png
    image.png

    相关文章

      网友评论

          本文标题:Elasticsearch入门笔记4一IK分词器

          本文链接:https://www.haomeiwen.com/subject/ewswxdtx.html