一、Elasticsearch
1.1简介
开源的 Elasticsearch 是目前全文搜索引擎的首选。
它可以快速地储存、搜索和分析海量数据。
imgElastic 的底层是开源库 Lucene。Elastic 是 Lucene 的封装,提供了 REST API 的操作接口,开箱即用。
1.2安装
本文使用docker安装elasticsearch:
$ docker pull elasticsearch:6.6.0
运行elasticsearch:
$ docker run -d --name elasticsearch -p 9200:9200 -p 9300:9300 -e "discovery.type=single-node" elasticsearch:6.6.0
浏览器输入127.0.0.1:9200 如得到和下面类似的响应,则说明安装成功。
{
"name" : "1qMIj3m",
"cluster_name" : "docker-cluster",
"cluster_uuid" : "AT68_T_DTp-1qgIJlctQqA",
"version" : {
"number" : "6.6.0",
"build_flavor" : "default",
"build_type" : "zip",
"build_hash" : "f27399d",
"build_date" : "2019-01-24T11:27:09.439740Z",
"build_snapshot" : false,
"lucene_version" : "7.6.0",
"minimum_wire_compatibility_version" : "5.6.0",
"minimum_index_compatibility_version" : "5.0.0"
},
"tagline" : "You Know, for Search"
}
为方便以后的操作,安装Kibana,Kibana是Elasticsearch的开源数据可视化插件。它在Elasticsearch集群上索引的内容之上提供可视化功能。用户可以在大量数据之上创建条形图,折线图和散点图,或饼图和贴图。
同样通过docker拉取镜像:
$ docker pull kibana:6.6.0
启动:
$ docker run -d --name kibana -p 5601:5601 kibana:6.6.0
需要注意的是,运行不同主版本号的 Kibana 和 Elasticsearch 是不支持的(例如 Kibana 5.x 和 Elasticsearch 2.x),若主版本号相同,运行 Kibana 子版本号比 Elasticsearch 子版本号新的版本也是不支持的(例如 Kibana 5.1 和 Elasticsearch 5.0)。
编写docker-compose.yml方便管理elasticsearch和kibana容器:
version: '3'
services:
elasticsearch:
build: elasticsearch:6.6.0
container_name: elasticsearch
environment:
- discovery.type=single-node
ports:
- 9200:9200
- 9300:9300
kibana:
image: kibana:6.6.0
container_name: kibana
ports:
- 5601:5601
之后可通过docker-compose up
命令来启动两个容器。
二、中文分词
直接使用对应的中文分词插件elasticsearch-analysis-ik来进行中文分词 ,这里通过编写Dockerfile文件,来自定义一个具有中文分词插件的elasticsearch容器。
在docker-compose.yml文件的同级目录新建名为es的文件夹,在es文件夹中编写Dockerfile。
目录结构如下:
.
├── docker-compose.yml
└── es
└── Dockerfile
Dockerfile文件内容如下:
FROM elasticsearch:6.6.0
RUN yes | ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.6.0/elasticsearch-analysis-ik-6.6.0.zip
修改docker-compose.yml 构建我们在Dockerfile中的镜像
version: '3'
services:
elasticsearch:
build: ./es
container_name: elasticsearch
environment:
- discovery.type=single-node
ports:
- 9200:9200
- 9300:9300
kibana:
image: kibana:6.6.0
container_name: kibana
ports:
- 5601:5601
修改完成之后记得执行docker-compose build
命令更新镜像。
三、同义词词典
参考es的相关文档:Synonym Token Filter
Two synonym formats are supported: Solr, WordNet.
也就是es的同义词词典格式目前支持两种格式,本文仅使用Solr这种模式的同义词。
词典部分本文采用哈工大同义词词林,这里可以下载该词典。在实际业务中应根据实际需求对词典进行优化。
下载后需要根据Solr模式的同义词格式进行格式化一下,放至es文件夹下。
格式化后同义词词典synonym.txt的部分内容如下:
人,士,人物,人士,人氏,人选
人类,生人,全人类
劳力,劳动力,工作者
匹夫,个人
此时目录结构如下:
.
├── docker-compose.yml
└── es
├── Dockerfile
└── synonym.txt
由于需要添加同义词词典,我们需要更新Dockerfile
FROM elasticsearch:6.6.0
RUN yes | ./bin/elasticsearch-plugin install https://github.com/medcl/elasticsearch-analysis-ik/releases/download/v6.6.0/elasticsearch-analysis-ik-6.6.0.zip
RUN mkdir -p ./config/analysis && chown -R elasticsearch:root ./config/analysis
COPY --chown=elasticsearch:root synonym.txt /usr/share/elasticsearch/config/analysis/
目的是在elasticsearch/config目录下,建立analysis目录, 并在analysis目录下放入本地synonym.txt文件。
修改完成之后docker-compose build
命令更新镜像。
四、测试
新建名为first
的索引,自定义一个叫做ik_synonym
的analyzer
PUT /first
{
"settings": {
"analysis": {
"filter": {
"my_stop": {
"type": "stop",
"stopwords": [" "]
},
"my_synonym": {
"type": "synonym",
"synonyms_path": "analysis/synonym.txt"
}
},
"analyzer": {
"ik_synonym": {
"type": "custom",
"tokenizer": "ik_max_word",
"filter": ["my_stop","my_synonym"]
}
}
}
}
}
设置好后,可以用以下命令检测同义词是否配置成功
GET /first/_analyze
{
"analyzer": "ik_synonym",
"text": "番茄"
}
结果如下
{
"tokens" : [
{
"token" : "番茄",
"start_offset" : 0,
"end_offset" : 2,
"type" : "CN_WORD",
"position" : 0
},
{
"token" : "西红柿",
"start_offset" : 0,
"end_offset" : 2,
"type" : "SYNONYM",
"position" : 0
}
]
}
至此,elasticsearch环境基本搭建完成。本人水平有限,若有疏漏之处希望各位能够指正,共同学习,谢谢。
网友评论