Elasticsearch 集群莫名两个小时崩溃一次的问题

作者: 你才是小白 | 来源:发表于2018-12-26 22:01 被阅读0次

Elasticsearch 集群莫名两个小时崩溃一次的问题
Elasticsearch系列---生产集群部署(下)
ElasticSearch 目录
通过docker安装elasticsearch
Elasticsearch 环境部署测试
centos7 ELK elastic stack elast
Ansible Role 日志分析之【elasticsearc
Elasticsearch 5.1.2滚动升级至 5.6.4
Elasticsearch
elasticsearch-7.2.1 Linux系统部署指南

一、集群现象

集群大概每隔2小时左右崩溃一次，崩溃的持续时间为10分钟左右，日志表现形式如下

[2018-09-18T01:37:43,071][WARN ][o.e.d.z.UnicastZenPing ] [node-1] failed to send ping to [{node-3}{3i0mQX2yRqyD5oqMny5srw}{aVphjfqBQ7mHpi5EncF8tg}{xxx.xxx.32}{xxxxxx:9300}{ml.machine_memory=16657965056, ml.max_open_jobs=20, xpack.installed=true, ml.enabled=true}]

org.elasticsearch.transport.ReceiveTimeoutTransportException: [node-3][10.112.188.32:9300][internal:discovery/zen/unicast] request_id [59813] timed out after [3750ms]

at org.elasticsearch.transport.TransportService$TimeoutHandler.run(TransportService.java:987) [elasticsearch-6.3.2.jar:6.3.2]

at org.elasticsearch.common.util.concurrent.ThreadContext$ContextPreservingRunnable.run(ThreadContext.java:626) [elasticsearch-6.3.2.jar:6.3.2]

at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149) [?:1.8.0_181]

at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624) [?:1.8.0_181]

at java.lang.Thread.run(Thread.java:748) [?:1.8.0_181]

二、解决方案

先说方案：修改tcp_keepalive的配置以下为默认配置

# cat /proc/sys/net/ipv4/tcp_keepalive_time 7200

# cat /proc/sys/net/ipv4/tcp_keepalive_intvl 75

# cat /proc/sys/net/ipv4/tcp_keepalive_probes 9

深入的原理请参考这篇文章

https://blog.trifork.com/2015/04/08/dealing-with-nodenotavailableexceptions-in-elasticsearch/

了解到Es集群和系统防火墙的设置有关系。（在排查问题过程中本地集群没有开启防火墙，导致问题没有复现）如果开启了防火墙,并且没有调整系统关于tcp keepalive的参数时就会出现该问题，调整的配置如下，默认系统的配置为 7200 （2小时）每次重试间隔75s 重试 9次后，系统才会报告该tcp已经断开连接。和Es集群崩溃的现象时间间隔吻合。

通过查找官网资料发现也有相关的说明。

Es官网中也有给出相关的警告不过没有仔细阅读导致花费大量的时间去排查问题。

如下图所示明确要求保持空闲的长连接的重要性。

网友评论

本文标题：Elasticsearch 集群莫名两个小时崩溃一次的问题

本文链接：https://www.haomeiwen.com/subject/sdjcfqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Elasticsearch 集群莫名两个小时崩溃一次的问题

一、集群现象

二、解决方案

相关文章

Elasticsearch 集群莫名两个小时崩溃一次的问题

Elasticsearch系列---生产集群部署(下)

ElasticSearch 目录

通过docker安装elasticsearch

Elasticsearch 环境部署测试

centos7 ELK elastic stack elast

Ansible Role 日志分析之【elasticsearc

Elasticsearch 5.1.2滚动升级至 5.6.4

Elasticsearch

elasticsearch-7.2.1 Linux系统部署指南

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读