美文网首页
2022-09-21 生产集群zookeeper 下hive_z

2022-09-21 生产集群zookeeper 下hive_z

作者: felix_feng | 来源:发表于2022-09-20 16:48 被阅读0次

    2022-09-21 10点50 生产集群首先发现HDFS服务中zkfc出现异常,2个服务都关闭。
    其次发现zookeeper节点全部GC OOM。
    再次启动发现持续OOM。无法启动。
    通过调整JVM参数从1G调整到4G.启动成功。持续时间10分钟。

    通过分析zookeeper快照文件发现。

     java -cp /opt/cloudera/parcels/CDH/lib/zookeeper/lib/slf4j-api-1.7.5.jar:/opt/cloudera/parcels/CDH/lib/zookeeper/zookeeper.jar org.apache.zookeeper.server.SnapshotFormatter /root/snapshot.f000f030b > kuai.log
    
    [root@srvbd18 ~]# grep "/" kuai.log | awk -F'/' '{print $2}'  | sort | uniq -c
          1
          4 hadoop-ha
        198 hbase
     102540 hive_zookeeper_namespace_hive
      10264 rmstore
          4 sentry
          4 yarn-leader-election
          2 zookeeper
    

    发现大量znode出现在hive_zookeeper_namespace_hive中。
    hive_zookeeper_namespace_hive信息是支持hiveserver2高可用时,在操作表的时候会加锁,使用zookeeper来实现分布式锁。

    1. 元信息和数据的变更需要互斥锁
    2. 数据的读取需要共享锁
    image.png

    相关文章

      网友评论

          本文标题:2022-09-21 生产集群zookeeper 下hive_z

          本文链接:https://www.haomeiwen.com/subject/kqxiortx.html