美文网首页
基于docker的elasticsearch中文分词及同义词配置

基于docker的elasticsearch中文分词及同义词配置

作者: caelansar | 来源:发表于2019-02-12 22:32 被阅读0次

    一、Elasticsearch

    1.1简介

    开源的 Elasticsearch 是目前全文搜索引擎的首选。

    它可以快速地储存、搜索和分析海量数据。

    img

    Elastic 的底层是开源库 Lucene。Elastic 是 Lucene 的封装,提供了 REST API 的操作接口,开箱即用。

    1.2安装

    本文使用docker安装elasticsearch:

    $ docker pull elasticsearch:6.6.0
    

    运行elasticsearch:

    $ docker run -d --name elasticsearch -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" elasticsearch:6.6.0
    

    浏览器输入127.0.0.1:9200 如得到和下面类似的响应,则说明安装成功。

    {
      "name" : "1qMIj3m",
      "cluster_name" : "docker-cluster",
      "cluster_uuid" : "AT68_T_DTp-1qgIJlctQqA",
      "version" : {
        "number" : "6.6.0",
        "build_flavor" : "default",
        "build_type" : "zip",
        "build_hash" : "f27399d",
        "build_date" : "2019-01-24T11:27:09.439740Z",
        "build_snapshot" : false,
        "lucene_version" : "7.6.0",
        "minimum_wire_compatibility_version" : "5.6.0",
        "minimum_index_compatibility_version" : "5.0.0"
      },
      "tagline" : "You Know, for Search"
    }
    

    为方便以后的操作,安装Kibana,Kibana是Elasticsearch的开源数据可视化插件。它在Elasticsearch集群上索引的内容之上提供可视化功能。用户可以在大量数据之上创建条形图,折线图和散点图,或饼图和贴图。

    同样通过docker拉取镜像:

    $ docker pull kibana:6.6.0
    

    启动:

    $ docker run -d --name kibana -p 5601:5601 kibana:6.6.0
    

    需要注意的是,运行不同主版本号的 Kibana 和 Elasticsearch 是不支持的(例如 Kibana 5.x 和 Elasticsearch 2.x),若主版本号相同,运行 Kibana 子版本号比 Elasticsearch 子版本号新的版本也是不支持的(例如 Kibana 5.1 和 Elasticsearch 5.0)。

    编写docker-compose.yml方便管理elasticsearch和kibana容器:

    version: '3'
    services:
        elasticsearch:
            build: elasticsearch:6.6.0
            container_name: elasticsearch
            environment: 
                - discovery.type=single-node
            ports:
                - 9200:9200
                - 9300:9300
    
        kibana:
            image: kibana:6.6.0
            container_name: kibana
            ports:
                - 5601:5601
    

    之后可通过docker-compose up命令来启动两个容器。

    二、中文分词

    直接使用对应的中文分词插件elasticsearch-analysis-ik来进行中文分词 ,这里通过编写Dockerfile文件,来自定义一个具有中文分词插件的elasticsearch容器。

    在docker-compose.yml文件的同级目录新建名为es的文件夹,在es文件夹中编写Dockerfile。

    目录结构如下:

    .
    ├── docker-compose.yml
    └── es
        └── Dockerfile
    

    Dockerfile文件内容如下:

    FROM elasticsearch:6.6.0
    RUN yes | ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.6.0/elasticsearch-analysis-ik-6.6.0.zip
    

    修改docker-compose.yml 构建我们在Dockerfile中的镜像

    version: '3'
    services:
        elasticsearch:
            build: ./es
            container_name: elasticsearch
            environment: 
                - discovery.type=single-node
            ports:
                - 9200:9200
                - 9300:9300
    
        kibana:
            image: kibana:6.6.0
            container_name: kibana
            ports:
                - 5601:5601
    

    修改完成之后记得执行docker-compose build命令更新镜像。

    三、同义词词典

    参考es的相关文档:Synonym Token Filter

    Two synonym formats are supported: Solr, WordNet.

    也就是es的同义词词典格式目前支持两种格式,本文仅使用Solr这种模式的同义词。

    词典部分本文采用哈工大同义词词林,这里可以下载该词典。在实际业务中应根据实际需求对词典进行优化。

    下载后需要根据Solr模式的同义词格式进行格式化一下,放至es文件夹下。

    格式化后同义词词典synonym.txt的部分内容如下:

    人,士,人物,人士,人氏,人选
    
    人类,生人,全人类
    
    劳力,劳动力,工作者
    
    匹夫,个人
    

    此时目录结构如下:

    .
    ├── docker-compose.yml
    └── es
        ├── Dockerfile
        └── synonym.txt
    

    由于需要添加同义词词典,我们需要更新Dockerfile

    FROM elasticsearch:6.6.0
    RUN yes | ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.6.0/elasticsearch-analysis-ik-6.6.0.zip
    RUN mkdir -p ./config/analysis && chown -R elasticsearch:root ./config/analysis
    COPY --chown=elasticsearch:root synonym.txt /usr/share/elasticsearch/config/analysis/
    

    目的是在elasticsearch/config目录下,建立analysis目录, 并在analysis目录下放入本地synonym.txt文件。
    修改完成之后docker-compose build命令更新镜像。

    四、测试

    新建名为first的索引,自定义一个叫做ik_synonymanalyzer

    PUT /first
    {
      "settings": {
        "analysis": {
          "filter": {
            "my_stop": {
              "type": "stop",
              "stopwords": [" "]
            },
            "my_synonym": {
              "type": "synonym",
              "synonyms_path": "analysis/synonym.txt"
            }
          },
          "analyzer": {
            "ik_synonym": {
              "type": "custom",
              "tokenizer": "ik_max_word",
              "filter": ["my_stop","my_synonym"]
            }
          }
        }
      }
    }
    

    设置好后,可以用以下命令检测同义词是否配置成功

    GET /first/_analyze 
    {
      "analyzer": "ik_synonym",
      "text": "番茄"
    }
    

    结果如下

    {
      "tokens" : [
        {
          "token" : "番茄",
          "start_offset" : 0,
          "end_offset" : 2,
          "type" : "CN_WORD",
          "position" : 0
        },
        {
          "token" : "西红柿",
          "start_offset" : 0,
          "end_offset" : 2,
          "type" : "SYNONYM",
          "position" : 0
        }
      ]
    }
    

    至此,elasticsearch环境基本搭建完成。本人水平有限,若有疏漏之处希望各位能够指正,共同学习,谢谢。

    相关文章

      网友评论

          本文标题:基于docker的elasticsearch中文分词及同义词配置

          本文链接:https://www.haomeiwen.com/subject/dzjleqtx.html