Zookeeper 选举源码解析

作者: 放开那个BUG | 来源:发表于2020-05-20 11:19 被阅读0次

Zookeeper 选举源码解析
zookeeper源码分析系列四leader选举机制剖析
ZooKeeper源码解析(9)-几种RequestProces
[Zookeeper] 选举流程Fast Leader
Zookeeper源码深度解析教程，各个击破zookeeper组
《源码_Zookeeper》_简述Zookeeper 选举
zookeeper - 启动（1）
zookeeper源码解读(一)---选举
zookeeper源码分析—— leader选举
ZooKeeper选举源码阅读上

一、前言

在 QuorumPeer 主流程中，首先一个机器是 LOOKING 状态，先 sendNotifications 给自己，也就是先投自己，即将消息插入到 FastLeaderElection 的 sendqueue 中，它的 WorkerSender 内部类将消息插入到 QuorumCnxManager 的 sendqueue 中。插入的时候，发现id等于自己，直接插入到 QuorumCnxManager 的 recvQueue 中。

FastLeaderElection 的 WorkerReceiver 从 recvQueue 拿到数据后，会插入到 FastLeaderElection 的 recvqueue，供 QuorumPeer 的主流程使用。

但是代码的逻辑，简而言之就是代码将选举跟发送、接收的逻辑分开了，比较清晰一点，如图：

协作逻辑

二、选举逻辑

主要的逻辑是在 QuorumPeer 的 run 方法中，此方法会不断的轮训，根据自己处于什么状态采取不同的行动（LOOKING、FOLLOWING、LEADING、OBSERVING）。最开始是 LOOKING 状态，所以选举的主要逻辑在 FastLeaderElection 的 lookForLeader 中。

try {
            /*
             * Main loop
             */
            while (running) {
                switch (getPeerState()) {
                case LOOKING:
                    LOG.info("LOOKING");
                    ServerMetrics.getMetrics().LOOKING_COUNT.add(1);

                    if (Boolean.getBoolean("readonlymode.enabled")) {
                        LOG.info("Attempting to start ReadOnlyZooKeeperServer");

                        // Create read-only server but don't start it immediately
                        final ReadOnlyZooKeeperServer roZk = new ReadOnlyZooKeeperServer(logFactory, this, this.zkDb);

                        // Instead of starting roZk immediately, wait some grace
                        // period before we decide we're partitioned.
                        //
                        // Thread is used here because otherwise it would require
                        // changes in each of election strategy classes which is
                        // unnecessary code coupling.
                        Thread roZkMgr = new Thread() {
                            public void run() {
                                try {
                                    // lower-bound grace period to 2 secs
                                    sleep(Math.max(2000, tickTime));
                                    if (ServerState.LOOKING.equals(getPeerState())) {
                                        roZk.startup();
                                    }
                                } catch (InterruptedException e) {
                                    LOG.info("Interrupted while attempting to start ReadOnlyZooKeeperServer, not started");
                                } catch (Exception e) {
                                    LOG.error("FAILED to start ReadOnlyZooKeeperServer", e);
                                }
                            }
                        };
                        try {
                            roZkMgr.start();
                            reconfigFlagClear();
                            if (shuttingDownLE) {
                                shuttingDownLE = false;
                                startLeaderElection();
                            }
                            setCurrentVote(makeLEStrategy().lookForLeader());
                        } catch (Exception e) {
                            LOG.warn("Unexpected exception", e);
                            setPeerState(ServerState.LOOKING);
                        } finally {
                            // If the thread is in the the grace period, interrupt
                            // to come out of waiting.
                            roZkMgr.interrupt();
                            roZk.shutdown();
                        }
                    } else {
                        try {
                            reconfigFlagClear();
                            if (shuttingDownLE) {
                                shuttingDownLE = false;
                                startLeaderElection();
                            }

                            // 选举的逻辑在这里
                            setCurrentVote(makeLEStrategy().lookForLeader());
                        } catch (Exception e) {
                            LOG.warn("Unexpected exception", e);
                            setPeerState(ServerState.LOOKING);
                        }
                    }
                    break;
                case OBSERVING:
                    try {
                        LOG.info("OBSERVING");
                        setObserver(makeObserver(logFactory));
                        observer.observeLeader();
                    } catch (Exception e) {
                        LOG.warn("Unexpected exception", e);
                    } finally {
                        observer.shutdown();
                        setObserver(null);
                        updateServerState();

                        // Add delay jitter before we switch to LOOKING
                        // state to reduce the load of ObserverMaster
                        if (isRunning()) {
                            Observer.waitForObserverElectionDelay();
                        }
                    }
                    break;
                case FOLLOWING:
                    try {
                        LOG.info("FOLLOWING");
                        setFollower(makeFollower(logFactory));
                        follower.followLeader();
                    } catch (Exception e) {
                        LOG.warn("Unexpected exception", e);
                    } finally {
                        follower.shutdown();
                        setFollower(null);
                        updateServerState();
                    }
                    break;
                case LEADING:
                    LOG.info("LEADING");
                    try {
                        setLeader(makeLeader(logFactory));
                        leader.lead();
                        setLeader(null);
                    } catch (Exception e) {
                        LOG.warn("Unexpected exception", e);
                    } finally {
                        if (leader != null) {
                            leader.shutdown("Forcing shutdown");
                            setLeader(null);
                        }
                        updateServerState();
                    }
                    break;
                }
            }
        } finally {
            LOG.warn("QuorumPeer main thread exited");
            MBeanRegistry instance = MBeanRegistry.getInstance();
            instance.unregister(jmxQuorumBean);
            instance.unregister(jmxLocalPeerBean);

            for (RemotePeerBean remotePeerBean : jmxRemotePeerBean.values()) {
                instance.unregister(remotePeerBean);
            }

            jmxQuorumBean = null;
            jmxLocalPeerBean = null;
            jmxRemotePeerBean = null;
        }

1、首先机器选择自己，并向其他机器发送自己的投票。
2、只要机器是 LOOKING 状态并且没有停止，会不断更新选票发送选票，统计选票结果，直到出错或者选出 leader。具体就是从队列取出 Notification，并根据 Notification 中对方机器的状态做处理。
1）LOOKING 状态
a.如果发送过来的逻辑时钟大于目前的逻辑时钟，那么说明这是更新的一次选举投票，此时应该更新本机的逻辑时钟（logicalclock），清空投票箱（因为已经过期没用了），调用 totalOrderPredicate 判断对方的投票是否由于当前的投票，是的话则更新，否则就用初始投票，调用 sendNotifications 通知所有服务器，跳到 d。
b.如果对方处于上轮投票，不理睬，回到2。
c.如果对方也是处理本轮投票，那么就调用 totalOrderPredicate 判断对方的投票是否由于当前的投票，是的话则更新，否则就用初始投票，调用 sendNotifications 通知所有服务器。
d.将收到的投票放入自己投票箱。
e.调用 voteSet.hasAllQuorums()，即调用计数器的 containsQuorum 方法，判断超过的票数是否超过一半，是那么就投票结束，leader选举接收。

2）OBSERVING 状态：
不做任何事。

3）FOLLOWING 或 LEADING 状态：
a.如果选举周期相同（选票是同一轮选举产生），将该数据保存到投票箱，根据当前投票箱的投票判断对方推荐的leader是否得到多数人的同意，如果是则设置状态退出选举过程，否则到b。

b.这是一条与当前逻辑时钟不符合的消息，或者对方推荐的leader没有得到多数人的同意（有可能是收集到的投票数不够），那么说明可能在另一个选举过程中已经有了选举结果，于是将该选举结果加入到outofelection集合中，再根据outofelection来判断是否可以结束选举，如果可以也是保存逻辑时钟，设置状态，退出选举过程。否则继续循环。outofelection用于保存那些状态为FOLLOWING或者LEADING的ZooKeeper节点发送的选票，由于对方的状态为FOLLOWING或者LEADING，所以它们当前不参与选举过程（可能人家已经选完了），因此称为“out of election”。

/*
             * Loop in which we exchange notifications until we find a leader
             */

            while ((self.getPeerState() == ServerState.LOOKING) && (!stop)) {
                /*
                 * Remove next notification from queue, times out after 2 times
                 * the termination time
                 */
                Notification n = recvqueue.poll(notTimeout, TimeUnit.MILLISECONDS);

                /*
                 * Sends more notifications if haven't received enough.
                 * Otherwise processes new notification.
                 */
                if (n == null) {
                    if (manager.haveDelivered()) {
                        sendNotifications();
                    } else {
                        manager.connectAll();
                    }

                    /*
                     * Exponential backoff
                     */
                    int tmpTimeOut = notTimeout * 2;
                    notTimeout = Math.min(tmpTimeOut, maxNotificationInterval);
                    LOG.info("Notification time out: {}", notTimeout);
                } else if (validVoter(n.sid) && validVoter(n.leader)) {
                    /*
                     * Only proceed if the vote comes from a replica in the current or next
                     * voting view for a replica in the current or next voting view.
                     */
                    switch (n.state) {
                    case LOOKING:
                        if (getInitLastLoggedZxid() == -1) {
                            LOG.debug("Ignoring notification as our zxid is -1");
                            break;
                        }
                        if (n.zxid == -1) {
                            LOG.debug("Ignoring notification from member with -1 zxid {}", n.sid);
                            break;
                        }
                        // If notification > current, replace and send messages out
                        if (n.electionEpoch > logicalclock.get()) {
                            logicalclock.set(n.electionEpoch);
                            recvset.clear();
                            if (totalOrderPredicate(n.leader, n.zxid, n.peerEpoch, getInitId(), getInitLastLoggedZxid(), getPeerEpoch())) {
                                updateProposal(n.leader, n.zxid, n.peerEpoch);
                            } else {
                                updateProposal(getInitId(), getInitLastLoggedZxid(), getPeerEpoch());
                            }
                            sendNotifications();
                        } else if (n.electionEpoch < logicalclock.get()) {
                                LOG.debug(
                                    "Notification election epoch is smaller than logicalclock. n.electionEpoch = 0x{}, logicalclock=0x{}",
                                    Long.toHexString(n.electionEpoch),
                                    Long.toHexString(logicalclock.get()));
                            break;
                        } else if (totalOrderPredicate(n.leader, n.zxid, n.peerEpoch, proposedLeader, proposedZxid, proposedEpoch)) {
                            updateProposal(n.leader, n.zxid, n.peerEpoch);
                            sendNotifications();
                        }

                        LOG.debug(
                            "Adding vote: from={}, proposed leader={}, proposed zxid=0x{}, proposed election epoch=0x{}",
                            n.sid,
                            n.leader,
                            Long.toHexString(n.zxid),
                            Long.toHexString(n.electionEpoch));

                        // don't care about the version if it's in LOOKING state
                        recvset.put(n.sid, new Vote(n.leader, n.zxid, n.electionEpoch, n.peerEpoch));

                        voteSet = getVoteTracker(recvset, new Vote(proposedLeader, proposedZxid, logicalclock.get(), proposedEpoch));

                        // 投票得到大多数人同意，超过 1/2
                        if (voteSet.hasAllQuorums()) {

                            // Verify if there is any change in the proposed leader
                            while ((n = recvqueue.poll(finalizeWait, TimeUnit.MILLISECONDS)) != null) {
                                if (totalOrderPredicate(n.leader, n.zxid, n.peerEpoch, proposedLeader, proposedZxid, proposedEpoch)) {
                                    recvqueue.put(n);
                                    break;
                                }
                            }

                            /*
                             * This predicate is true once we don't read any new
                             * relevant message from the reception queue
                             */
                            if (n == null) {
                                setPeerState(proposedLeader, voteSet);
                                Vote endVote = new Vote(proposedLeader, proposedZxid, logicalclock.get(), proposedEpoch);
                                leaveInstance(endVote);
                                return endVote;
                            }
                        }
                        break;
                    case OBSERVING:
                        LOG.debug("Notification from observer: {}", n.sid);
                        break;
                    case FOLLOWING:
                    case LEADING:
                        // 出现 FOLLOWING 或者 LEADING 是因为集群本来就存在 leader，然后一台新的机器启动加入集群中，收到集群中其他机器
                        // 的回应时，如果时钟相同，直接把自己设置为 follower 或者 observer；如果不同那就先设置时钟，再把自己设置为 follower 或者 observer
                        /*
                         * Consider all notifications from the same epoch
                         * together.
                         */
                        if (n.electionEpoch == logicalclock.get()) {
                            recvset.put(n.sid, new Vote(n.leader, n.zxid, n.electionEpoch, n.peerEpoch, n.state));
                            voteSet = getVoteTracker(recvset, new Vote(n.version, n.leader, n.zxid, n.electionEpoch, n.peerEpoch, n.state));
                            if (voteSet.hasAllQuorums() && checkLeader(recvset, n.leader, n.electionEpoch)) {
                                setPeerState(n.leader, voteSet);
                                Vote endVote = new Vote(n.leader, n.zxid, n.electionEpoch, n.peerEpoch);
                                leaveInstance(endVote);
                                return endVote;
                            }
                        }

                        /*
                         * Before joining an established ensemble, verify that
                         * a majority are following the same leader.
                         *
                         * Note that the outofelection map also stores votes from the current leader election.
                         * See ZOOKEEPER-1732 for more information.
                         */
                        outofelection.put(n.sid, new Vote(n.version, n.leader, n.zxid, n.electionEpoch, n.peerEpoch, n.state));
                        voteSet = getVoteTracker(outofelection, new Vote(n.version, n.leader, n.zxid, n.electionEpoch, n.peerEpoch, n.state));

                        if (voteSet.hasAllQuorums() && checkLeader(outofelection, n.leader, n.electionEpoch)) {
                            synchronized (this) {
                                logicalclock.set(n.electionEpoch);
                                setPeerState(n.leader, voteSet);
                            }
                            Vote endVote = new Vote(n.leader, n.zxid, n.electionEpoch, n.peerEpoch);
                            leaveInstance(endVote);
                            return endVote;
                        }
                        break;
                    default:
                        LOG.warn("Notification state unrecoginized: {} (n.state), {}(n.sid)", n.state, n.sid);
                        break;
                    }
                } else {
                    if (!validVoter(n.leader)) {
                        LOG.warn("Ignoring notification for non-cluster member sid {} from sid {}", n.leader, n.sid);
                    }
                    if (!validVoter(n.sid)) {
                        LOG.warn("Ignoring notification for sid {} from non-quorum member sid {}", n.leader, n.sid);
                    }
                }
            }

三、参考资料

https://www.jianshu.com/p/ccaecde36dd3

Zookeeper 选举源码解析
一、前言在 QuorumPeer 主流程中，首先一个机器是 LOOKING 状态，先 sendNotificat...
zookeeper源码分析系列四leader选举机制剖析
zookeeper源码分析系列四leader选举机制剖析
ZooKeeper源码解析(9)-几种RequestProces
在ZooKeeper源码解析(7)-请求处理(上)和ZooKeeper源码解析(8)-请求处理(下)中，我们已经介...
[Zookeeper] 选举流程Fast Leader
选举信息-选举流程-选举场景-源码分析 1 选举信息 <1> 服务器角色信息在Zookeeper集群提供服务时，集...
Zookeeper源码深度解析教程，各个击破zookeeper组
Zookeeper源码深度解析教程，各个击破zookeeper组件源码和解读框架的架构15套java框架源码深度剖...
《源码_Zookeeper》_简述Zookeeper 选举
选举是Zookeeper的重要技术之一，采用过半机制（Quorom）选举算法图服务端启动时期的Leader选举...
zookeeper - 启动（1）
概述趁着五一放假抽空看了一下zookeeper的源码，一开始是打算学习zookeeper的选举过程的，后来发...
zookeeper源码解读(一)---选举
1.在QuorumPeerMain中main方法，main.initializeAndRun(args)，启动节点...
zookeeper源码分析—— leader选举
https://blog.csdn.net/u010994966/article/details/93653277...
ZooKeeper选举源码阅读上
1. 选举流程 2. 源码分析 2.1 源码入口从QuorumPeerMain的main方法开始 2.2 Quo...