1、HA集群重置
1.1、背景
测试环境磁盘满直接删除数据后,导致yarn,hive无法访问。
yarn开启了label功能,因为删除数据后导致label的数据丢失,在启动能够成功无法切换主备,重启两台导致脑裂问题
hive是无法连接yarn因此无法访问
1.2、解决
不想丢弃hdfs的ha,计划通过集群格式化方式解决
1.2.1、删除JOURNALNODES editlog
根据配置查找路径,一般是三台,都需要删除
rm -rf /hadoop/hdfs/journal/hwyTest/* #这个是我的配置路径,不代表跟你一样
1.2.2、删除namenode数据,datanode的数据目录
根据配置查找路径,两台namenode都需要删除
rm -rf /hadoop/hdfs/namenode/* #namnode数据盘
rm -rf /hadoop/hdfs/datanode/data/* #datanode数据盘
1.2.3、格式化集群
hdfs namenode -format
hadoop-daemon.sh start hdfs #启动第一台机器的namenode
#standby:
hdfs namenode -bootstrapStandby #重置standby机器
hadoop-daemon.sh start hdfs
1.2.4、重新namenode、datanode即可
2、重启集群导致两台机器standby
2.1、背景
由于stop-all.sh,start-all.sh 直接重启Hadoop 集群,启动后namenode无法切换主备,都未standby
2.2、解决
2.2.1/登录zk 删除zk ha的相关节点
rmr /hadoop-ha
2.2.3、重置zkController
hdfs zkfc -formatZK
附录
HA机器搭建关键步骤
1.启动namenode
hdfs namenode -format
active:
hadoop-daemon.sh start hdfs
standby:
hdfs namenode -bootstrapStandby
hadoop-daemon.sh start hdfs
2.启动zkfc
#在zk 中创建ha节点
hdfs zkfc -formatZK
网友评论