HDFS使用Ambari切主遇到的坑

作者: 小北觅 | 来源:发表于2020-11-27 00:28 被阅读0次

HDFS使用Ambari切主遇到的坑
基于Ubuntu系使用Ambari 快速搭建Hadoop大数据处
Namenode HA恢复
关于HDFS文件块丢失/损坏的相关问题
Presto + Ambari Hive 问题
2022-02-15
JAVA API连接HA(High Available) Had
【ambari-部署】Ambari2.6.2 HDP2.6.5
ambari
Ambari 项目结构

现象：
今天部署机架感知，重启standby节点，然后切主生效。在切主的时候使用ambari的 restart zkfc，导致切主不成功并且原standby nn节点挂掉。慌的一匹，问了领导再重启一次就好了，顺便给我讲了一下原理。本着对问题刨根问底的精神，我挖了挖源码，来看看这个问题产生的原因。

首先总结一下导致这个现象的基本原因： restart zkfc的过程很快，大概只有5秒。当Active NN上面的zkfc停掉的时候，被standby NN上的zkfc检测到。于是ZKFC开始准备让standby NN变成Active NN。但是由于这中间需要tail editlog，加载editlog等等耗时的工作，所以肯定是大于5秒的。然后ANN上面的ZKFC重启成功了，检测到对方的状态有问题，又将自己变成ANN。然后当SNN准备变成ANN时，发现自己的epoch小于当前最新的epoch，无法写editlog到journal node，于是抛异常挂掉。

从源码的角度分析

准备工作：

收集Namenode挂掉时候的日志：发现有如下内容：

Remote journal [ip地址] failed to write txns 3098267305-3098267305. Will try to write to this JN again after the next log roll.

org.apache.hadoop.ipc.RemoteException(java.io.IOException): IPC's epoch 25 is less than the last promised epoch 26 ; journal id: [集群名]
        at org.apache.hadoop.hdfs.qjournal.server.Journal.checkRequest(Journal.java:463)
        at org.apache.hadoop.hdfs.qjournal.server.Journal.checkWriteRequest(Journal.java:489)
        at org.apache.hadoop.hdfs.qjournal.server.Journal.journal(Journal.java:374)
        at org.apache.hadoop.hdfs.qjournal.server.JournalNodeRpcServer.journal(JournalNodeRpcServer.java:189)
        at org.apache.hadoop.hdfs.qjournal.protocolPB.QJournalProtocolServerSideTranslatorPB.journal(QJournalProtocolServerSideTranslatorPB.java:162)
        at org.apache.hadoop.hdfs.qjournal.protocol.QJournalProtocolProtos$QJournalProtocolService$2.callBlockingMethod(QJournalProtocolProtos.java:27401)
        at org.apache.hadoop.ipc.ProtobufRpcEngine$Server$ProtoBufRpcInvoker.call(ProtobufRpcEngine.java:524)
        at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:1025)
        at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:876)
        at org.apache.hadoop.ipc.Server$RpcCall.run(Server.java:822)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:422)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1730)
        at org.apache.hadoop.ipc.Server$Handler.run(Server.java:2682)

        at org.apache.hadoop.ipc.Client.getRpcResponse(Client.java:1497)
        at org.apache.hadoop.ipc.Client.call(Client.java:1443)
        at org.apache.hadoop.ipc.Client.call(Client.java:1353)
        at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:228)
        at org.apache.hadoop.ipc.ProtobufRpcEngine$Invoker.invoke(ProtobufRpcEngine.java:116)
        at com.sun.proxy.$Proxy12.journal(Unknown Source)
        at org.apache.hadoop.hdfs.qjournal.protocolPB.QJournalProtocolTranslatorPB.journal(QJournalProtocolTranslatorPB.java:187)
        at org.apache.hadoop.hdfs.qjournal.client.IPCLoggerChannel$7.call(IPCLoggerChannel.java:396)
        at org.apache.hadoop.hdfs.qjournal.client.IPCLoggerChannel$7.call(IPCLoggerChannel.java:389)
        at java.util.concurrent.FutureTask.run(FutureTask.java:266)
        at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142)
        at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617)
        at java.lang.Thread.run(Thread.java:745)

根据log去源码中搜索相关线索，找到如下源码信息：

reqInfo.getEpoch() 此处是25，lastPromisedEpoch此处是26。
看注释抛出的异常，很容易知道，是往journal node上写editlog时出错了。

那我们就得看看lastPromisedEpoch是在什么条件下会被赋值，顺着set方法找，发现这个对象里面的long值存在于一个磁盘上的文件。当journal node第一次被加载或者之后的任何format操作都会从磁盘上重新加载这个文件。经过追踪调用树，发现如下代码会最终让journal node加载这个值。