深入浅出 spring-data-elasticsearch -

作者: 程序员泥瓦匠 | 来源:发表于2017-06-23 11:57 被阅读349次

    『  热烈的爱情到订婚早已是定点,婚一结一切了结。现在订了婚,彼此间还留着情感发展的余地,这是桩好事。- 《我们仨》 』

    运行环境:JDK 7 或 8,Maven 3.0+

    技术栈:SpringBoot 1.5+, Spring Data Elasticsearch 1.5+ ,ElasticSearch 2.3.2

    本文提纲

    一、搜索实战场景需求

    二、运行 spring-data-elasticsearch-query 工程

    三、spring-data-elasticsearch-query 工程代码详解

    一、搜索实战场景需求

    搜索的场景会很多,常用的搜索场景,需要搜索的字段很多,但每个字段匹配到后所占的权重又不同。比如电商网站的搜索,搜到商品名称和商品描述,自然商品名称的权重远远大于商品描述。而且单词匹配肯定不如短语匹配。这样就出现了新的需求,如何确定这些短语,即自然分词。那就利用分词器,即可得到所需要的短语,然后进行搜索。

    下面介绍短语如何进行按权重分匹配搜索。

    二、运行 spring-data-elasticsearch-query 工程

    1. 后台起守护线程启动 Elasticsearch

    cdelasticsearch-2.3.2/./bin/elasticsearch -d

    git clone 下载工程 springboot-elasticsearch ,项目地址见 GitHub -https://github.com/JeffLi1993/ ... ample

    下面开始运行工程步骤(Quick Start):

    2. 项目结构介绍

    org.spring.springboot.controller-Controller层org.spring.springboot.repository-ES数据操作层org.spring.springboot.domain-实体类org.spring.springboot.service-ES业务逻辑层Application-应用启动类application.properties-应用配置文件,应用启动会自动读取配置

    本地启动的 ES ,就不需要改配置文件了。如果连测试 ES 服务地址,需要修改相应配置

    3.编译工程

    在项目根目录 spring-data-elasticsearch-query,运行 maven 指令:

    mvnclean install

    4.运行工程

    右键运行 Application 应用启动类(位置:org/spring/springboot/Application.java)的 main 函数,这样就成功启动了 spring-data-elasticsearch-query 案例。

    用 Postman 工具新增两个城市

    a. 新增城市信息

    POSThttp://127.0.0.1:8080/api/city{"id”:"1","score":"5","name":"上海","description":"上海是个热城市"}POSThttp://127.0.0.1:8080/api/city{"id":"2","score”:"4","name”:”温岭","description":”温岭是个沿海城市"}

    下面是实战搜索语句的接口:

    GEThttp://localhost:8080/api/city ... nt%3D城市

    获取返回结果:

    返回 JSON 如下:

    [{"id":2,"name":"温岭","description":"温岭是个沿海城市","score":4},    {"id":1,"name":"上海","description":"上海是个好城市","score":3}]

    应用的控制台中,日志打印出查询语句的 DSL :

    DSL  =  {"function_score": {"functions":[{"filter": {"match": {"name": {"query":"城市","type":"phrase"}        }      },"weight":1000.0}, {"filter": {"match": {"description": {"query":"城市","type":"phrase"}        }      },"weight":500.0} ],"score_mode":"sum","min_score":10.0}}

    三、spring-data-elasticsearch-query 工程代码详解

    具体代码见 GitHub -https://github.com/JeffLi1993/springboot-learning-example

    1.pom.xml 依赖

    http://maven.apache.org/POM/4.0.0"xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation="http://maven.apache.org/POM/4.0.0http://maven.apache.org/xsd/ma ... gt%3B4.0.0springbootspring-data-elasticsearch-crud0.0.1-SNAPSHOTspring-data-elasticsearch-crud :: spring-data-elasticsearch - 基本案例 org.springframework.bootspring-boot-starter-parent1.5.1.RELEASEorg.springframework.bootspring-boot-starter-data-elasticsearchorg.springframework.bootspring-boot-starter-webjunitjunit4.12

    这里依赖的 spring-boot-starter-data-elasticsearch 版本是 1.5.1.RELEASE,对应的 spring-data-elasticsearch 版本是 2.1.0.RELEASE。对应官方文档:http://docs.spring.io/spring-d ... html/。后面数据操作层都是通过该 spring-data-elasticsearch 提供的接口实现。

    2. application.properties 配置 ES 地址

    # ESspring.data.elasticsearch.repositories.enabled =truespring.data.elasticsearch.cluster-nodes =127.0.0.1:9300

    默认 9300 是 Java 客户端的端口。9200 是支持 Restful HTTP 的接口。

    更多配置:

     spring.data.elasticsearch.cluster-name Elasticsearch    集群名。(默认值: elasticsearch)

     spring.data.elasticsearch.cluster-nodes    集群节点地址列表,用逗号分隔。如果没有指定,就启动一个客户端节点。

     spring.data.elasticsearch.propertie     用来配置客户端的额外属性。

     spring.data.elasticsearch.repositories.enabled     开启 Elasticsearch 仓库。(默认值:true。)

    3. ES 数据操作层

    /*** ES 操作类*

    * Created by bysocket on 17/05/2017.*/publicinterfaceCityRepositoryextendsElasticsearchRepository{}

    接口只要继承 ElasticsearchRepository 接口类即可,具体使用的是该接口的方法:

    Iterablesearch(QueryBuilder query);    Pagesearch(QueryBuilder query, Pageable pageable);    Pagesearch(SearchQuery searchQuery);    PagesearchSimilar(T entity, String[] fields, Pageable pageable);

    4. 实体类

    /*** 城市实体类*

    * Created by bysocket on 03/05/2017.*/@Document(indexName ="province", type ="city")publicclassCityimplementsSerializable{privatestaticfinallongserialVersionUID =-1L;/*** 城市编号*/privateLong id;/*** 城市名称*/privateString name;/*** 描述*/privateString description;/*** 城市评分*/privateInteger score;publicLonggetId(){returnid;    }publicvoidsetId(Long id){this.id = id;    }publicStringgetName(){returnname;    }publicvoidsetName(String name){this.name = name;    }publicStringgetDescription(){returndescription;    }publicvoidsetDescription(String description){this.description = description;    }publicIntegergetScore(){returnscore;    }publicvoidsetScore(Integer score){this.score = score;    }}

    注意

    a. City 属性名不支持驼峰式。

    b. indexName 配置必须是全部小写,不然会出异常。

    org.elasticsearch.indices.InvalidIndexNameException: Invalid index name [provinceIndex], must be lowercase

    5. 城市 ES 业务逻辑实现类

    代码如下:

    /*** 城市 ES 业务逻辑实现类*

    * Created by bysocket on 20/06/2017.*/@ServicepublicclassCityESServiceImplimplementsCityService{privatestaticfinalLogger LOGGER = LoggerFactory.getLogger(CityESServiceImpl.class);/* 分页参数 */Integer PAGE_SIZE =12;// 每页数量Integer DEFAULT_PAGE_NUMBER =0;// 默认当前页码/* 搜索模式 */String SCORE_MODE_SUM ="sum";// 权重分求和模式Float  MIN_SCORE =10.0F;// 由于无相关性的分值默认为 1 ,设置权重分最小值为 10@AutowiredCityRepository cityRepository;// ES 操作类publicLongsaveCity(City city){        City cityResult = cityRepository.save(city);returncityResult.getId();    }@OverridepublicListsearchCity(Integer pageNumber, Integer pageSize, String searchContent){// 校验分页参数if(pageSize ==null|| pageSize <=0) {            pageSize = PAGE_SIZE;        }if(pageNumber ==null|| pageNumber < DEFAULT_PAGE_NUMBER) {            pageNumber = DEFAULT_PAGE_NUMBER;        }        LOGGER.info("\n searchCity: searchContent["+ searchContent +"] \n ");// 构建搜索查询SearchQuery searchQuery = getCitySearchQuery(pageNumber,pageSize,searchContent);        LOGGER.info("\n searchCity: searchContent["+ searchContent +"] \n DSL  = \n "+ searchQuery.getQuery().toString());        Page cityPage = cityRepository.search(searchQuery);returncityPage.getContent();    }/*** 根据搜索词构造搜索查询语句** 代码流程:*      - 权重分查询*      - 短语匹配*      - 设置权重分最小值*      - 设置分页参数**@parampageNumber 当前页码*@parampageSize 每页大小*@paramsearchContent 搜索内容*@return*/privateSearchQuerygetCitySearchQuery(Integer pageNumber, Integer pageSize,String searchContent){// 短语匹配到的搜索词,求和模式累加权重分// 权重分查询https://www.elastic.co/guide/c ... .html//  - 短语匹配https://www.elastic.co/guide/c ... .html//  - 字段对应权重分设置,可以优化成 enum//  - 由于无相关性的分值默认为 1 ,设置权重分最小值为 10FunctionScoreQueryBuilder functionScoreQueryBuilder = QueryBuilders.functionScoreQuery()                .add(QueryBuilders.matchPhraseQuery("name", searchContent),                ScoreFunctionBuilders.weightFactorFunction(1000))                .add(QueryBuilders.matchPhraseQuery("description", searchContent),                ScoreFunctionBuilders.weightFactorFunction(500))                .scoreMode(SCORE_MODE_SUM).setMinScore(MIN_SCORE);// 分页参数Pageable pageable =newPageRequest(pageNumber, pageSize);returnnewNativeSearchQueryBuilder()                .withPageable(pageable)                .withQuery(functionScoreQueryBuilder).build();    }}

    可以看到该过程实现了,短语精准匹配以及匹配到根据字段权重分求和,从而实现按权重搜索查询。代码流程如下:

    - 权重分查询

    - 短语匹配

    - 设置权重分最小值

    - 设置分页参数

    注意:

    - 字段对应权重分设置,可以优化成 enum

    - 由于无相关性的分值默认为 1 ,设置权重分最小值为 10

    权重分查询文档:https://www.elastic.co/guide/c ... .html

    短语匹配文档:https://www.elastic.co/guide/c ... .html

    四、小结

    Elasticsearch 还提供很多高级的搜索功能。这里提供下需要经常逛的相关网站:

    Elasticsearch 中文社区https://elasticsearch.cn/topic/elasticsearch

    Elasticsearch: 权威指南-在线版https://www.elastic.co/guide/cn/elasticsearch/guide/current/index.html

    摘要: 原创出处 www.bysocket.com 「泥瓦匠BYSocket 」欢迎转载,保留摘要,谢谢!

    相关文章

      网友评论

      本文标题:深入浅出 spring-data-elasticsearch -

      本文链接:https://www.haomeiwen.com/subject/gacccxtx.html