美文网首页
ElasticSearch分词

ElasticSearch分词

作者: 放开好人 | 来源:发表于2021-04-15 20:56 被阅读0次

一、简介

一个tokenizer分词器接收一个字符流,将之分割为独立的tokens(词元,通常是独立的单词),然后输出tokens流。
该分词器还负责记录各个term(词条)的顺序或position位置(用于phrase短语和word proximity词近邻查询),以及term词条所代表的原始word(单词)的start起始和end结束的character offsets字符偏移量(用于高亮显示搜索的内容)。
ElasticSearch提供了很多内置的分词器,可以用来构建custom analyzers(自定义分词器)。

使用
POST /_analyze
{
  "analyzer": "standard",
  "text": "hello world"
}
注意

由于官网提供的分词器都是针对英文,中文分词都是逐字区分。所以需要按照ik分词器,用于解决中文分词。

二、安装ik分词器

准备zip

github外网访问慢,可以从码云下载。
https://gitee.com/mirrors/elasticsearch-analysis-ik/releases

解压

unzip 压缩包

上传

上传到虚拟机挂载目录下即可/mydata/elasticsearch/plugins

确认

elasticsearch-plugin list 列出系统的分词器

相关文章

网友评论

      本文标题:ElasticSearch分词

      本文链接:https://www.haomeiwen.com/subject/mneekltx.html