Elasticsearch入门笔记4一IK分词器

Elasticsearch入门笔记4一IK分词器

作者: 小名源治 | 来源:发表于2022-12-04 08:24 被阅读0次

IK分词器：中文分词器

分词：即把一段中文或者别的划分成一个个的关键字，我们在搜索时候会把自己的信息进行分词，会把数据库中或者索引库中的数据进行分词，然后进行一个个匹配操作，默认的中文分词是将每个字看成一个词，比如“我爱狂神”会被分为”我”，”爱”，”狂”，”神” ，这显然是不符合要求的，所以我们需要安装中文分词器ik来解决这个问题。

IK提供了两个分词算法: ik_smart和ik_max_word ,其中ik_smart为最粗粒度的拆分, ik_max_word为最细粒度划分!

ik_max_word 会将文本做最细粒度的拆分
比如会将「中华人民共和国国歌」拆分为：中华人民共和国、中华人民、中华、华人、人民共和国、人民、人、民、共和国、共和、和、国国、国歌，会穷尽各种可能的组合；
ik_smart 最粗粒度的拆分
比如会将「中华人民共和国国歌」拆分为：中华人民共和国、国歌。

下载地址
日志文件中出现此日志就说明ik分词器安装成功了

image.png

在命令行进入bin目录下，输入命令elasticsearch-plugin list，就能看到我们加载的分词器。

image.png

结合kibana测试使用ik分词器

ik_smart 最粗粒度和 ik_max_word 最细粒度

image.png

ik分词器的字典

我们通过查看ik分词器的配置文件，可以知道，用于分词的依据是在配置文件中的一个个.dic的字典文件。当然我们也可以添加自己的字典。

image.png

新建一个自己的dic文件，zlw.dic，里面添加一个词条“叫小明”，然后去IKAnalyzer.cfg的xml文件中，将zlw.dic添加进去，然后重启kibana和es测试。

image.png

image.png

image.png

相关文章

网友评论

本文标题：Elasticsearch入门笔记4一IK分词器

本文链接：https://www.haomeiwen.com/subject/ewswxdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Elasticsearch入门笔记4一IK分词器|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！