2022-09-21 10点50 生产集群首先发现HDFS服务中zkfc出现异常,2个服务都关闭。
其次发现zookeeper节点全部GC OOM。
再次启动发现持续OOM。无法启动。
通过调整JVM参数从1G调整到4G.启动成功。持续时间10分钟。
通过分析zookeeper快照文件发现。
java -cp /opt/cloudera/parcels/CDH/lib/zookeeper/lib/slf4j-api-1.7.5.jar:/opt/cloudera/parcels/CDH/lib/zookeeper/zookeeper.jar org.apache.zookeeper.server.SnapshotFormatter /root/snapshot.f000f030b > kuai.log
[root@srvbd18 ~]# grep "/" kuai.log | awk -F'/' '{print $2}' | sort | uniq -c
1
4 hadoop-ha
198 hbase
102540 hive_zookeeper_namespace_hive
10264 rmstore
4 sentry
4 yarn-leader-election
2 zookeeper
发现大量znode出现在hive_zookeeper_namespace_hive中。
hive_zookeeper_namespace_hive信息是支持hiveserver2高可用时,在操作表的时候会加锁,使用zookeeper来实现分布式锁。
- 元信息和数据的变更需要互斥锁
- 数据的读取需要共享锁
网友评论