IK分词器:中文分词器
分词:即把一段中文或者别的划分成一个个的关键字,我们在搜索时候会把自己的信息进行分词,会把数据库中或者索引库中的数据进行分词,然后进行一个个匹配操作,默认的中文分词是将每个字看成一个词,比如“我爱狂神”会被分为”我”,”爱”,”狂”,”神” ,这显然是不符合要求的,所以我们需要安装中文分词器ik来解决这个问题。
IK提供了两个分词算法: ik_smart和ik_max_word ,其中ik_smart为最粗粒度的拆分, ik_max_word为最细粒度划分!
-
ik_max_word 会将文本做最细粒度的拆分
比如会将「中华人民共和国国歌」拆分为:中华人民共和国、中华人民、中华、华人、人民共和国、人民、人、民、共和国、共和、和、国国、国歌,会穷尽各种可能的组合; -
ik_smart 最粗粒度的拆分
比如会将「中华人民共和国国歌」拆分为:中华人民共和国、国歌。
下载地址
日志文件中出现此日志就说明ik分词器安装成功了
在命令行进入bin目录下,输入命令elasticsearch-plugin list
,就能看到我们加载的分词器。
结合kibana测试使用ik分词器
ik_smart 最粗粒度 和 ik_max_word 最细粒度
image.png
ik分词器的字典
我们通过查看ik分词器的配置文件,可以知道,用于分词的依据是在配置文件中的一个个.dic的字典文件。当然我们也可以添加自己的字典。
image.png
新建一个自己的dic文件,zlw.dic,里面添加一个词条“叫小明”,然后去IKAnalyzer.cfg的xml文件中,将zlw.dic添加进去,然后重启kibana和es测试。
image.png
image.png
image.png
网友评论