Elasticsearch总结

作者: 苏wisdom | 来源:发表于2020-05-08 16:40 被阅读0次

ElasticSearch 总结
ElasticSearch 入门总结
Elasticsearch总结
netty 应用在哪些框架中
ElasticSearch基础语法总结
Spark连接Elasticsearch总结
ElasticSearch部署总结
elasticsearch 问题总结
Elasticsearch实战总结
Elasticsearch安装总结

1 基本概念

cluster 类比成数据库
index 类比成表
document 类比成表中一行数据
field 类比成表中字段，字段是包含数据的键值对

2 ES 是如何实现分布式的？

image.png

一个索引其实会被分片成多个shard放在不同机器上，每个shard只有索引的部分数据。
每个shard可有多个replica shard 放在其他机器。primary shard负责读写，写完后会同步到replica shard上。replica shard负责分担读请求，并防止其primary shard节点故障导致数据丢失。索引创建完成后，primary shard的数量就确定了不可更改，但replica shard的数量可以随时调整。
cluster中有多个node, 会自动选举出一个node为master节点，负责维护索引元数据，负责集群中primary shard和replica shard的身份切换。

比如上图，index分成p0 p1 两个primary shard, 分别存储在node3 和 node 1上，他们的replica shard各自都有两份，比如p0的replica shard是r0, 在node1 和 node2 上。
cluster选举了node1作为master节点。

primary shard的默认数量是5，replica默认是1，也就是说默认5个primary shard，5个replica shard

3 ES写入数据的工作原理是什么？

image.png

插入、删除和索引都是写入操作。写入操作的主要过程如下：

客户端请求到任意节点，比如node1
node1根据文档_id参数，hash计算出分片位置在node3节点的p0上，于是转发请求到p0
node3的p0分片执行写请求，完毕后转发给自己的两个分片r0。
等待两个复制分片写入成功，node3报告写入成功给node1节点，node1节点再告诉客户端写入成功。

其中“执行写请求”的底层原理如下。

image.png

3.1 refresh

在ES中，buffer每隔1秒（或者满了），打开一个新segemnt并写入的过程，叫做refresh。

默认情况下，每个分片每秒自动刷新一次。这就是为什么说Elasticsearch是近实时的搜索了：
文档的改动在refresh之前，是搜索不出来的。

3.2 flush

在ES中，进行一次提交并删除事务日志的操作叫做 flush 。分片每30分钟，或事务日志过大，都会进行一次flush操作。

3.3 translog

为了数据安全es默认每隔5秒钟会把translog刷新(fsync)到磁盘中，也就是说最多会丢失5秒钟的数据，如果你对数据安全比较敏感，可以把这个间隔减小，但是会占用更多资源

flush和fsync的区别：

flush是把内存中的数据(包括translog和segments)都刷到磁盘
fsync只是把translog刷新到磁盘(确保数据不丢失)。

3.4 merge

通过每隔1秒自动刷新创建新的段，用不了多久段的数量就爆炸了。

每个段文件都会消费句柄、内存、cpu资源。更重要的是，每次搜索请求都需要依次检查每个段。段越多，查询越慢。

ES通过后台merge段解决这个问题。小段被合并成大段，再合并成更大的段。

image.png

3.5 删除数据

如果删除，其实是把数据写到磁盘上的.del文件，然后在segemnt搜索到数据后，会在.del文件看是否有删除标记。

在merge后会物理删除。

4 ES搜索数据的工作原理是什么？

4.1 根据doc id 进行GET

协调节点根据id进行hash计算确认在哪个分片上
采用负载均衡的方式在primary shard和replica shard里查找数据

4.2 全文检索

image.png

客户端发送请求到协调节点node3
node3向每个分片广播，比如图中广播给了r0和p1
每个分片在本地执行搜索并且建立了匹配document的优先队列（priority queue），返回document的ID和它优先队列里的所有document的排序值给协调节点 Node 3 。
Node3 把这些值合并到自己的优先队列里产生全局排序结果。

5 在几十亿数据量级的场景下如何优化查询性能？

5.1 filesystem cache

es的数据是存在磁盘上，第1次读的时候如果没在操作系统的filesystem cache上找到，就会先去磁盘把数据放到filesystem cache里再返回给node。所以filesystem cache要足够大容纳尽可能多的index和segment file数据，这样就请求直接走内存，速度就快了。

另外，不必要的数据就别存在es里了，只把搜索用的字段数据放es。其他不用于检索的数据，可以放在hbase或者mysql数据库里。

走磁盘速度基本上都要上秒级，走内存基本上就是毫秒级了。

5.2 缓存预热

对于热点数据，每隔一段时间提前预热到filesystem cache里。

5.3 冷热分离

大量访问很少，频率很低的数据，单独写一个索引，热数据在另一个索引中。确保filesystem cache里的热数据不被频繁刷掉。

5.4 document 模型设计

es里复杂的关联语法join/nested等尽量别用，性能很低。写入es系统之前就完成关联，然后设计好document，添加一些field。

5.5 分页性能优化

es的分页性能比较差。es是分布式的，比如每页10条数据，你要查第100页的数据，实际上每个shard都会把自己的几千条数据发给协调节点，然后汇总，再从汇总结果查询到第100页的数据。

也就是说，翻页越深，各个shard拿到的数据越多，汇总的数据量也越多，性能越差。

1）不允许深度分页
2）使用es的scroll api , 游标查询会取某个时间点的快照数据。查询初始化之后索引上的任何变化会被它忽略。但是没法随意跳到任何一页

网友评论

本文标题：Elasticsearch总结

本文链接：https://www.haomeiwen.com/subject/ykqfnhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Elasticsearch总结

1 基本概念

2 ES 是如何实现分布式的？

3 ES写入数据的工作原理是什么？

3.1 refresh

3.2 flush

3.3 translog

3.4 merge

3.5 删除数据

4 ES搜索数据的工作原理是什么？

4.1 根据doc id 进行GET

4.2 全文检索

5 在几十亿数据量级的场景下如何优化查询性能？

5.1 filesystem cache

5.2 缓存预热

5.3 冷热分离

5.4 document 模型设计

5.5 分页性能优化

相关文章

ElasticSearch 总结

ElasticSearch 入门总结

Elasticsearch总结

netty 应用在哪些框架中

ElasticSearch基础语法总结

Spark连接Elasticsearch总结

ElasticSearch部署总结

elasticsearch 问题总结

Elasticsearch实战总结

Elasticsearch安装总结

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读