Elasticsearch入门（2）

作者: iszhenyu | 来源:发表于2017-04-11 01:02 被阅读117次

ElasticSearch（2）:Java 链接 Elastic
详细教程
Hello ElasticSearch
ElasticSearch 入门总结
Elasticsearch教程集
es安装与操作
一、Elasticsearch入门
ElasticSearch学习
Elasticsearch入门（2）
(番外篇) Elasticsearch入门

我们在入门（1）中详细介绍了ES的安装、基本概念和一些基本的REST Api请求，在这篇入门（2）中，我们继续介绍ES的高级查询功能。

为了说明ES强大的搜索功能，我们还以上篇文章中的customer索引为例，但对其中的文档字段进行了一定的补充，补充后一个文档的内容大致如下所示：

{
    "firstname": "zhang",
    "lastname": "san",
    "age": 29,
    "gender": "F",
    "address": "某某区某某街某某小区某号楼某单元某零几",
    "email": "san.zhang@qq.com",
    "city": "北京"
}

在ES中有两种方式可以进行高级查询，一种是通过在REST request URI中传递参数，另一种是通过REST request body来传递查询参数。因为第二种方式更富有表现力、不受URI长度的限制并且使用了更加易读的JSON格式来表示，因此实际应用中多数以request body的形式来查询，我们这里也不再对第一种方式进行过多的介绍。

如果想通过REST API来使用查询功能，则必须要在URI的最后添加_search关键字，并且不需要再指定类型（type）。

match_all

首先来看下怎么查询customer索引下的所有文档：

curl -XGET 'localhost:9200/customer/_search?pretty' -H 'Content-Type: application/json' -d'
{
  "query": { "match_all": {} }
}
'

query关键字说明了我们希望进行的是查询操作，它的值就是要查询的条件。上面的请求返回的数据我们摘录一部分内容，如下所示：

{
  "took" : 4,
  "timed_out" : false,
  "_shards" : {
    "total" : 5,
    "successful" : 5,
    "failed" : 0
  },
  "hits" : {
    "total" : 3,
    "max_score" : 1.0,
    "hits" : []
  }
}

其中，每个字段的含义是：

took -- ES执行查询操作用时，单位为milliseconds
timed_out -- 查询是否超时
_shards -- 查询了几个分片，每个分配查询的结果是什么
hits -- 查询的结果
hits.total -- 匹配我们搜索条件的文档数量
hits.hits -- 查询结果的数组，默认是取前10个文档
hits.sort -- 对结果进行排序的字段，如果没有排序这个字段为空
hits._score 和 max_score -- 文档与指定查询的相关性，越高说明相关性越大

sort

如果我们想对结果进行排序，可以使用sort关键字：

curl -XGET 'localhost:9200/customer/_search?pretty' -H 'Content-Type: application/json' -d'
{
  "query": { "match_all": {} },
  "sort": [
    { "account_number": "asc" }
  ]
}
'

因为可以根据多个字段进行排序，因此sort关键字对应的是一个数组，允许我们指定多个排序策略。

size、from

我们在介绍返回结果字段含义的时候说过，默认是取前10个文档，如果想修改这个值可以指定size参数，比如只取一个文档：

curl -XGET 'localhost:9200/customer/_search?pretty' -H 'Content-Type: application/json' -d'
{
  "query": { "match_all": {} },
  "size": 1
}
'

默认情况下，上面的请求返回的是从第0个文档算起的，同样，我们也可以修改这个值，比如取第11个到第20个文档，就要指定另外一个值from：

curl -XGET 'localhost:9200/customer/_search?pretty' -H 'Content-Type: application/json' -d'
{
  "query": { "match_all": {} },
  "from": 10,
  "size": 10
}
'

有一点需要强调的是，from这个参数是从0开始的，它表明了希望从哪里开始截取数据，size参数指定了要返回多少文档，因此，通过利用from和size，我们可以方便的实现分页操作。

_source

跟其他的数据库操作一样，有的时候我们并不需要返回一个文档的所有字段，返回部分字段，可以极大的减少数据量的传输，比如，对于customer中的文档，我们只希望返回fristname和lastname两个字段，这个时候就可以使用_source关键字了：

curl -XGET 'localhost:9200/customer/_search?pretty' -H 'Content-Type: application/json' -d'
{
  "query": { "match_all": {} },
  "_source": ["firstname", "lastname"]
}
'

目前为止，我们已经介绍了关于查询的几个关键字，在继续往下进行之前，先来总结一下：

query：指定查询的条件
match_all：匹配所有文档
sort：对结果进行排序
from：查询结果起始位置，从0开始
size：查询结果大小
_source：指定返回的字段

match

match_all查询可以匹配所有的文档，但大部分时候这个查询是没啥意义的，如果只需要查询所有文档，就没有非用ES不可的理由了。当我们需要根据某个字段进行查找，这个时候match就派上用场了，先来看一下用法：

curl -XGET 'localhost:9200/customer/_search?pretty' -H 'Content-Type: application/json' -d'
{
  "query": { "match": { "age": 20 } }
}
'

上面的请求会查询年龄为20的文档。除了数字类型，match还可以接受文本和日期类型的查询条件，看下一个例子：

curl -XGET 'localhost:9200/customer/_search?pretty' -H 'Content-Type: application/json' -d'
{
  "query": { "match": { "address": "朝阳区和平街" } }
}
'

在这个例子中，我们的查询条件是一个字符串，ES会返回给我们什么样的数据呢？在其他数据库系统中，只有address字段的内容跟查询条件完全一致才能被匹配，而在ES中则大不同。

ES首先会对朝阳区和平街进行分析，假如分析的结果是将这个字符串拆分成了朝阳区和和平街，然后，根据倒排索引，会找到所有包含朝阳区或者包含和平街的文档。

如何对查询文本进行分析，并不是一成不变的，我们可以指定分析器，来告诉ES怎么对文本进行拆分，上面的这种拆分需要用到一个中文的分词器叫做ik_smart，ES默认是不支持中文分词的，需要安装第三方的工具。

这里之所以说是或者包含，是因为我们没有指定match的行为，通过operator关键字，我们可以指定是or还是and。比如我们希望找到既包含朝阳区又包含和平街的文档，就可以改写上面的语句如下：

curl -XGET 'localhost:9200/customer/_search?pretty' -H 'Content-Type: application/json' -d'
{
    "query": {
        "match" : {
            "address" : {
                "query" : "朝阳区和平街",
                "operator" : "and"
            }
        }
    }
}
'

bool

之所以在使用match的时候可以指定operator，是因为match其实是一种布尔类型的查询。在ES中，我们也可以单独的使用这种类型的查询，布尔查询的关键字是bool，bool查询将许多个小的查询利用一定的布尔逻辑综合成一个较大的查询。比如，上面查询既包含朝阳区又包含和平街的语句就可以利用bool改写成下面这样：

curl -XGET 'localhost:9200/customer/_search?pretty' -H 'Content-Type: application/json' -d'
{
  "query": {
    "bool": {
      "must": [
        { "match": { "address": "朝阳区" } },
        { "match": { "address": "和平街" } }
      ]
    }
  }
}
'

改成bool查询后，逻辑变得更清晰了。同时，我们看到了一个新的关键字must，在bool查询中，并不是用or、and来声明逻辑关系的，must表明所有的查询条件都返回True的时候才能匹配，作为对比，用should来表明or的逻辑关系。

should的行为并不像我们通常理解的那样：只要有一个条件返回True就匹配成功。事实上，我们在使用bool的时候，还会涉及到另外一个参数：minimum_should_match，如果不指定这个参数，则默认当所有条件都返回False的时候，也会匹配成功。

除此之外，在一个bool查询中还可以同时指定must、should、must_not。还是以上面的例子说明，除了希望address至少包含朝阳区或和平街外，还希望age等于20：

curl -XGET 'localhost:9200/customer/_search?pretty' -H 'Content-Type: application/json' -d'
{
  "query": {
    "bool": {
      "should": [
        { "match": { "address": "朝阳区" } },
        { "match": { "address": "和平街" } }
      ],
      "must": {"match": {"age": 20}},
      "minimum_should_match": 1   
    }
  }
}
'

term

除了match查询外，还有一个term查询，term查询跟match查询唯一不同的一点是：term查询不会对查询文本进行分析，而是直接去倒排索引中去看都有哪些文档包含要查询的条件；match是首先对要查询的文本进行分析，划分为多个子文本，然后将一个大查询拆分成多个小查询，最后进行汇总处理。因此，如果match查询不能对查询文本进行再划分，那么它与term查询的效果是一样的。

还是上面的查询，将match换成term：

curl -XGET 'localhost:9200/customer/_search?pretty' -H 'Content-Type: application/json' -d'
{
  "query": { "term": { "address": "朝阳区和平街" } }
}
'

这个查询的含义就变成了查询在address中包含朝阳区和平街这个字符串的文档。

query与filter

最后，我们来说下filter，对于很多初学者来说，有的时候很难区分query查询和filter查询，尤其是遇到两种方法都能正确得到数据的情况下，更是难决断。所以，在这节我们来看下两者的区别。

首先来说query查询，对于query语句，它要回答的是：某个文档跟查询语句的匹配程度如何？除了决定一个文档是否匹配查询语句外，还要计算一个_score值，这个值就代表了文档的相关性，值越大说明相关性越高。但是，对于这个值，我们大多数时候并不关心，如果不再计算这个值势必会在一定程度上提高ES查询的效率，因此，引入了filter查询。

对于filter语句，只考虑某个文档是否匹配，也就是Yes or No的问题，并不计算相关性，这种情况下可以类比于一般数据库的select语句。filter另外一个跟query不同的地方是，ES会对经常使用的filter进行缓存，以此来提供查询效率，而query不会使用缓存。

如此一来，我们的结论就是，在构造查询语句的时候，能使用filter的地方绝不使用query。

我们在上面的内容中介绍了bool查询，它除了支持must、should、must_not外，还可以支持filter语句，例如：

curl -XGET 'localhost:9200/customer/_search?pretty' -H 'Content-Type: application/json' -d'
{
  "query": {
    "bool": {
      "must": { "match_all": {} },
      "filter": {
        "range": {
          "age": {"gte": 20, "lte": 30}
        }
      }
    }
  }
}
'

上面的语句查询了所有年龄在20到30之间的人，它包含一个match_all语句和一个range语句，其中range是放在filter中的，当然如果不使用filter也是可以的，像下面这样：

curl -XGET 'localhost:9200/customer/_search?pretty' -H 'Content-Type: application/json' -d'
{
  "query": {
    "bool": {
      "must": { 
        "range": {
          "age": {"gte": 20, "lte": 30}
        } 
      }
    }
  }
}
'

不过，还是那句话，能使用filter的地方绝不使用query。

到这里，查询语句的介绍就到这里，在入门（3）中，会继续介绍ES中的几种特殊的数据类型：列表类型和嵌套类型。

这样学机器学习

ElasticSearch（2）:Java 链接 Elastic
ElasticSearch（2）:Java 链接 ElasticSearch 客户端入门 1.入门简介使用Jav...
详细教程
Elasticsearch入门（一）：CentOS 7.6 安装ES 7.0.0Elasticsearch入门（二...
Hello ElasticSearch
本篇文章是ElasticSearch的入门篇，全文提纲：1.ElasticSearch产品介绍2.ElasticS...
ElasticSearch 入门总结
ElasticSearch 入门本篇为 ElasticSearch 入门学习总结笔记，课程视频地址：Elasti...
Elasticsearch教程集
Elasticsearch 权威指南（中文版） Elasticsearch 官网 ElasticSearch入门 ...
es安装与操作
1.Elasticsearch在UBUNTU下的安装与启动 2.全文搜索引擎 Elasticsearch 入门教程...
一、Elasticsearch入门
一、Elasticsearch入门 1. Elasticsearch简介 Elasticsearch是什么 Ela...
ElasticSearch学习
ElasticSearch入门第一篇：Windows下安装ElasticSearch ElasticSearch...
Elasticsearch入门（2）
我们在入门（1）中详细介绍了ES的安装、基本概念和一些基本的REST Api请求，在这篇入门（2）中，我们继续介绍...
(番外篇) Elasticsearch入门
ElasticSesrch入门标签（空格分隔）：ElasticSearch 安装 elasticsearch 官...