ha集群操作

作者: 后知不觉1 | 来源:发表于2022-05-07 21:34 被阅读0次

    1、HA集群重置

    1.1、背景

    测试环境磁盘满直接删除数据后,导致yarn,hive无法访问。
    yarn开启了label功能,因为删除数据后导致label的数据丢失,在启动能够成功无法切换主备,重启两台导致脑裂问题
    hive是无法连接yarn因此无法访问

    1.2、解决

    不想丢弃hdfs的ha,计划通过集群格式化方式解决

    1.2.1、删除JOURNALNODES editlog

    根据配置查找路径,一般是三台,都需要删除

    rm -rf  /hadoop/hdfs/journal/hwyTest/*  #这个是我的配置路径,不代表跟你一样
    
    1.2.2、删除namenode数据,datanode的数据目录

    根据配置查找路径,两台namenode都需要删除

    rm -rf /hadoop/hdfs/namenode/*  #namnode数据盘
    rm -rf /hadoop/hdfs/datanode/data/*  #datanode数据盘
    
    1.2.3、格式化集群
    hdfs namenode -format  
    hadoop-daemon.sh start hdfs  #启动第一台机器的namenode
    
    #standby:
    hdfs namenode -bootstrapStandby   #重置standby机器
    hadoop-daemon.sh start hdfs  
    
    1.2.4、重新namenode、datanode即可

    2、重启集群导致两台机器standby

    2.1、背景

    由于stop-all.sh,start-all.sh 直接重启Hadoop 集群,启动后namenode无法切换主备,都未standby

    2.2、解决

    2.2.1/登录zk 删除zk ha的相关节点
    rmr   /hadoop-ha
    
    2.2.3、重置zkController
    hdfs zkfc -formatZK
    

    附录

    HA机器搭建关键步骤

    1.启动namenode
    hdfs namenode -format
    active:
    hadoop-daemon.sh start hdfs
    
    standby:
    hdfs namenode -bootstrapStandby
    hadoop-daemon.sh start hdfs
    2.启动zkfc
    
    #在zk 中创建ha节点
    hdfs zkfc -formatZK
    

    相关文章

      网友评论

        本文标题:ha集群操作

        本文链接:https://www.haomeiwen.com/subject/xxxxurtx.html