美文网首页
ElasticSearch分词

ElasticSearch分词

作者: 放开好人 | 来源:发表于2021-04-15 20:56 被阅读0次

    一、简介

    一个tokenizer分词器接收一个字符流,将之分割为独立的tokens(词元,通常是独立的单词),然后输出tokens流。
    该分词器还负责记录各个term(词条)的顺序或position位置(用于phrase短语和word proximity词近邻查询),以及term词条所代表的原始word(单词)的start起始和end结束的character offsets字符偏移量(用于高亮显示搜索的内容)。
    ElasticSearch提供了很多内置的分词器,可以用来构建custom analyzers(自定义分词器)。

    使用
    POST /_analyze
    {
      "analyzer": "standard",
      "text": "hello world"
    }
    
    注意

    由于官网提供的分词器都是针对英文,中文分词都是逐字区分。所以需要按照ik分词器,用于解决中文分词。

    二、安装ik分词器

    准备zip

    github外网访问慢,可以从码云下载。
    https://gitee.com/mirrors/elasticsearch-analysis-ik/releases

    解压

    unzip 压缩包

    上传

    上传到虚拟机挂载目录下即可/mydata/elasticsearch/plugins

    确认

    elasticsearch-plugin list 列出系统的分词器

    相关文章

      网友评论

          本文标题:ElasticSearch分词

          本文链接:https://www.haomeiwen.com/subject/mneekltx.html