美文网首页
es读优化

es读优化

作者: 烂泥_119c | 来源:发表于2020-02-09 11:38 被阅读0次

es搜索数据

es搜索数据流程

es读写流程示意图

image.png

analysis:主要负责词法分析及语言处理,也就是我们常说的分词,通过该模块可最终形成存储或者搜索的最小单元 Term。
index 模块:主要负责索引的创建工作。
store 模块:主要负责索引的读写,主要是对文件的一些操作,其主要目的是抽象出和平台文件系统无关的存储。
queryParser 模块:主要负责语法分析,把我们的查询语句生成 Lucene 底层可以识别的条件。
search 模块:主要负责对索引的搜索工作。
similarity 模块:主要负责相关性打分和排序的实现。

分布式搜索示意图


image.png

1. 客户端发送一个 search(搜索) 请求给 Node 3 , Node 3 创建了一个长度为 from+size 的空优先级队列。
2. Node 3 转发这个搜索请求到索引中每个分片的原本或副本。搜索请求可以被每个分片的原本或任意副本处理。
3. 每个分片在本地执行这个查询并且结果将结果到一个大小为 from+size 的有序本地优先队列里去。
4. 每个分片返回document的ID和它优先队列里的所有document的排序值给协调节点 Node 3 。 Node 3 把这些值合并到自己的优先队列里产生全局排序结果。

es的几种搜索类型

  • QUERY_THEN_FETCH(默认的方式)
第一步,先向所有的shard发出请求,各分片只返回排序和排名相关的信息(注意,不包括文档document),然后按照各分片返回的分数进行重新排序和排名,取前size个文档。然后进行第二步,去相关的shard取document。这种方式返回的document与用户要求的size是相等的。
  • QUERY_AND_FEATCH
向索引的所有分片(shard)都发出查询请求,各分片返回的时候把元素文档(document)和计算后的排名信息一起返回。这种搜索方式是最快的。因为相比下面的几种搜索方式,这种查询方法只需要去shard查询一次。但是各个shard返回的结果的数量之和可能是用户要求的size的n倍。

es读取优化的切入点

  1. 为文件系统预留足够的内存

    • es的查询会优先使用cache,如果命中缓存则可有效减少磁盘读取。
  2. 升级硬件

    • 升级磁盘为SSD磁盘
  3. 预索引

    • 其实是针对特定的查询,例如查询时可能涉及一些聚合的计算,可以在索引的时候预先将聚合的结果存储进去。
  4. 优化日期检索

    • 使用日期检索时,使用now的查询不能使用到缓存,因为匹配的范围一直在变化,可切换到使用完整的日期,例如改用 now/m,四舍五入到分钟。
  5. 合并分段

    • 对不再更新的索引使用force merge,将多个分段合并为一个分段,提高查询效率。
  6. 预热文件系统(文件缓存需足够大)

    • 提高es重启之后的查询速度
    put /my_index
    {
    "settings": {
        "index.store.preload": ["nvd","dvd"]
    }
    }
    
  7. batched_reduce_size

    • 默认情况下,协调节点等待所有分片结果全部拿到之后才进行聚合操作,该参数可以等待对应的节点数返回数据时先处理一部分。
  8. 限制搜索请求的分片数

    • action.search.shard_count 限制请求分片数,主要是减少协调节点的压力。默认es拒绝超过1000个分片的查询请求。
    • 分片数设置: 一般分片数数的设置应保证每个分片的大小不超过JVM的最大堆内存(一般不超过32G);一般分片数量不超过节点数的3倍。
  9. ARS自适应脚本选择

    • cluster.routing.use_adaptive_replica_selection:true
    • 为了充分利用集群资源,协调节点会将搜索请求轮询转发到分片的每个副本上,但是当某个节点因为 gc、io带宽等原因处于忙碌状态时,由于这一个节点,可能导致查询时间过长,ARS是对分片的副本进行排序,以确定转发请求的最佳副本,避免请求落到忙碌的节点上。
  10. 字段映射

    • 对于int/long类型的文本,如果是用做标识符,也推荐使用keyword的字段类型。 例:buyer_id
  11. 避免大结果集和深翻

例如,要查询从 from 开始的 size 条数据,则需要在每个分片中查询打分排名在前面的 from+size 条数据。

协同节点将收集到的n×(from+size)条数据聚合,再进行一次排序,然后从 from+size 开始返回 size 条数据。

当 from、size 或者 n 中有一个值很大的时候,需要参加排序的数量也会增长,这样的查询会消耗很多 CPU 资源,从而导致效率的降低。
* scroll
```

例如,我们需要查询 1~100 页的数据,每页 100 条数据。
如果使用 Search 查询:每次都需要在每个分片上查询得分最高的 from+100 条数据,然后协同节点把收集到的 n×(from+100)条数据聚合起来再进行一次排序。
每次返回 from+1 开始的 100 条数据,并且要重复执行 100 次。

如果使用 Scroll 查询:在各个分片上查询 10000 条数据,协同节点聚合 n×10000 条数据进行合并、排序,并将排名前 10000 的结果快照起来。这样做的好处是减少了查询和排序的次数。
```
* 缺点是每次查询时需要指定scroll_id

curl -XGET 'localhost:9200/twitter/tweet/_search?scroll=1m&pretty' -H 'Content-Type: application/json' -d'
{
    "size": 100,
    "query": {
        "match" : {
            "title" : "elasticsearch"
        }
    }
}'


curl -XGET 'localhost:9200/_search/scroll?pretty' -H 'Content-Type: application/json' -d'
{
    "scroll" : "1m", 
    "scroll_id" : "DXF1ZXJ5QW5kRmV0Y2gBAAAAAAAAAD4WYm9laVYtZndUQlNsdDcwakFMNjU1QQ==" 
}
'

相关文章

网友评论

      本文标题:es读优化

      本文链接:https://www.haomeiwen.com/subject/cjugxhtx.html