ES 查询优化（二）

作者: YG_9013 | 来源:发表于2017-12-13 21:30 被阅读63次

ES 查询优化（二）
千万级数据查询：CK、ES、RediSearch怎么选?
ES 查询优化（一）
ES插入/查询优化
es查询性能优化
Elasticsearch性能优化最佳实践
Lucene 8--magic WAND
mysql性能优化-慢查询分析、优化索引和配置
mysql性能优化-慢查询分析、优化索引和配置
ElasticSearch 7.x 聚合查询

接上一篇继续介绍。

1、查询精确匹配

假设有
{ "tags" : ["search"] }
{ "tags" : ["search", "open_source"] }
两个文档，{ "term" : { "tags" : "search" } }都能匹配，但想只搜索包含一个的值，怎么办？
插入数据时多加一个长度字段：
{ "tags" : ["search"], "tag_count" : 1 }
{ "tags" : ["search", "open_source"], "tag_count" : 2 }
查找时加上tag_count精确查找即可。

GET /_search
{
    "query": {
        "constant_score": {
            "filter": {
                "term": {
                    "tag_count": 1
                }
            }
        },
        "term": {
            "tags": "search"
        }
    }
}

2、忽略多个近义词匹配的相关性

我们知道jump, leap, 和 hop是近义词，它们表示的是同样的概念，因此在匹配时，我们希望匹配jump和leap的文档的相关性不能比仅匹配jump的文档高，该怎么做呢？设置coordination factor (coord)即可。

GET /_search
{
  "query": {
    "bool": {
      "disable_coord": true,
      "should": [
        { "term": { "text": "jump" }},
        { "term": { "text": "hop"  }},
        { "term": { "text": "leap" }}
      ]
    }
  }
}

3、查询时提高索引的相关性

比如说，我们es存储的是nginx的日志，昨天nginx出问题了，那么查看最近七天的日志时，为了快速找出昨天的错误，也不忽略前天的错误，那么昨天的nginx-log包含error的文档相关性应该比前天的高。默认的boost为1。

GET /docs_2017_12_*/_search 
{
  "indices_boost": { 
    "docs_2017_12_10": 3,
    "docs_2017_12_09": 2
  },
  "query": {
    "term": {
      "text": "error"
    }
  }
}

4、更改score计算方法

ES5.0之前默认用的是tf-idf来计算相关性，5.0之后（lucene6）用的BM25来计算相关性。所以这个就不说了。

5、针对数组字符串，match_phrase匹配不准确

PUT /my_index/groups/1
{
    "names": [ "John Abraham", "Lincoln Smith"]
}

GET /my_index/groups/_search
{
    "query": {
        "match_phrase": {
            "names": "Abraham Lincoln"
        }
    }
}

上述查询可以匹配的到插入的文档。原因是针对names建倒排时，各位置如下：

Position 1: john
Position 2: abraham
Position 3: lincoln
Position 4: smith

所以查询“Abraham Lincoln”可以查询的到。针对于这种情况通过设置position_increment_gap解决。

DELETE /my_index/groups/ 

PUT /my_index/_mapping/groups 
{
    "properties": {
        "names": {
            "type":                "string",
            "position_increment_gap": 100
        }
    }
}

重新导入数据，建索引时各个位置就会如下所示：

Position 1: john
Position 2: abraham
Position 103: lincoln
Position 104: smith

这样再次用match_phrase查询时，由于position没有互相挨着，就查询不到“Abraham Lincoln”。

6、Post Filter用于过滤返回的结果集

PUT /shirts
{
    "mappings": {
        "item": {
            "properties": {
                "brand": { "type": "keyword"},
                "color": { "type": "keyword"},
                "model": { "type": "keyword"}
            }
        }
    }
}

假设我们现在需要找出brand为gucci的所有颜色种类，但是只显示按model聚合的红色的文档，查询语句如下：

GET /shirts/_search
{
  "query": {
    "bool": {
      "filter": {
        "term": { "brand": "gucci" } 
      }
    }
  },
  "aggs": {
    "colors": {
      "terms": { "field": "color" } 
    },
    "color_red": {
      "filter": {
        "term": { "color": "red" } 
      },
      "aggs": {
        "models": {
          "terms": { "field": "model" } 
        }
      }
    }
  },
  "post_filter": { 
    "term": { "color": "red" }
  }
}

ES 查询优化（二）
接上一篇继续介绍。 1、查询精确匹配假设有{ "tags" : ["search"] }{ "tags" : [...
千万级数据查询：CK、ES、RediSearch怎么选?
目录前言初版设计方案 CK 分页查询使用ES Scroll Scan 优化深翻页 ES+Hbase 组合查询...
ES 查询优化（一）
1、能用term就不用match_phrase The Lucene nightly benchmarks sho...
ES插入/查询优化
1. 多线程插入可以根据服务器情况开启多个线程插入数据，速度可以提高n倍，n>=2。但是线程也不是越多越好，要根...
es查询性能优化
本文主要讨论es加载速度的优化。网络中大部分的性能优化方案基本源于官网，如下位置: 1. 文档进行建模避免使用n...
Elasticsearch性能优化最佳实践
13条优化带你的ES飞起来 1、bool 查询的 filter 筛选众所周知，ES中filter是不参与相关性评...
Lucene 8--magic WAND
ElasticSearch 7更新后，探究top-k的查询优化参考资料：ES7更新notesMagic WAND:...
mysql性能优化-慢查询分析、优化索引和配置
一、优化概述二、查询与索引优化分析 1性能瓶颈定位 Show命令慢查询日志 explain分析查询 profi...
mysql性能优化-慢查询分析、优化索引和配置
目录一、优化概述二、查询与索引优化分析 1性能瓶颈定位 Show命令慢查询日志 explain分析查询 pr...
ElasticSearch 7.x 聚合查询
聚合查询 |ES 的聚合查询和MyQL的聚合查询类型，ES 的聚合查询相比MySQL 要强大的多，ES提供的统计数...