美文网首页
Zookeeper之Leader选举

Zookeeper之Leader选举

作者: 圣村的希望 | 来源:发表于2021-01-17 17:27 被阅读0次

        Zookeeper是采用的zab协议进行实现的,而不是完全Paxos实现的。在主备系统架构模式下,采用zab协议来保证集群中所有副本的数据一致性。主系统接受处理所有的事务性请求,然后将数据变更状态以proposal提案的形式同步给所有的副本进程。所以在这个过程中,Leader机器显得格外重要。

        Leader选举就是在集群中选举出一个主进程,用来接收处理所有客户端的事务性请求。有个隐式条件就是集群中的服务器大于等于2台才能开始Leader选举。

    Leader选举时机:
    • 服务器启动时期的Leader选举
    • 服务器运行期间的Leader选举
    选举流程:
    • 发送当前自己机器的选票信息给集群中的其它机器
    • 接收集群中其它机器发送过来的选票信息
    • 处理接收到的投票信息
    • 统计投票信息
    • 改变当前服务器的状态
    选票PK规则:
    • 首先比对zxId
    • 再比对sid
    Zookeeper中leader选举的实现

        zookeeper中的leader选举由FastLeaderElection具体实现。其中有几个重要的类:

    • Notification:代表收到的投票信息类
    • ToSend:发送给其它服务器的投票信息
    • WorkerReceiver和WorkerSender以及Messager
    protected class Messenger {
            // 选票发送器
            WorkerSender ws;
            // 选票接收器
            WorkerReceiver wr;
        }
    
    • recvqueue:收票队列
    • sendqueue:发送选票队列

        WorkerReceiver和WorkerSender不停地从QuorumCnxManager中获取收到的选票信息,以及向集群中所有其它looking机器发送选票信息。

    FastLeaderElection继承自Election,实现了其中的选举leader的方法

    public Vote lookForLeader() throws InterruptedException {
    
                try {
                    //TODO 所有收到的选票集合
                    Map<Long, Vote> recvset = new HashMap<Long, Vote>();
    
                    synchronized (this) {
                        //TODO 逻辑时钟++
                        logicalclock.incrementAndGet();
                        //TODO 更新选票 推选的leaderId、zxId 和 选举周期
                        updateProposal(getInitId(), getInitLastLoggedZxid(), getPeerEpoch());
                    }
    
                    //TODO 给集群中的其它服务器发送当前服务器的投票信息
                    sendNotifications();
    
                    SyncedLearnerTracker voteSet;
    
                    //当前服务器是选举状态
                    while ((self.getPeerState() == QuorumPeer.ServerState.LOOKING) && (!stop)) {
                        //TODO 从QuorumCnxManager中获取收到的外部 投票信息
                        FastLeaderElection.Notification n = recvqueue.poll(notTimeout, TimeUnit.MILLISECONDS);
    
                        //TODO 收到的外部投票信息为空
                        if (n == null) {
                            //TODO 当前服务器选票信息是否发送完
                            if (manager.haveDelivered()) {
                                //TODO 发送完了继续发送当前服务器的选票信息给集群中的其它服务器
                                sendNotifications();
                            } else {
                                //TODO 没有发送完就当前服务器建立和其它服务器的链接信息
                                manager.connectAll();
                            }
                        } else if (validVoter(n.sid) && validVoter(n.leader)) {
                            //TODO 收到的选票中,投票者和被推选者都是 属于投票集合中
    
                            //TODO 查看收到的选票的状态
                            switch (n.state) {
                                case LOOKING:
                                    if (getInitLastLoggedZxid() == -1) {
                                        LOG.debug("Ignoring notification as our zxid is -1");
                                        break;
                                    }
                                    if (n.zxid == -1) {
                                        LOG.debug("Ignoring notification from member with -1 zxid {}", n.sid);
                                        break;
                                    }
                                    // If notification > current, replace and send messages out
                                    //TODO 如果收到的投票选举周期大于当前机器的时钟周期
                                    if (n.electionEpoch > logicalclock.get()) {
                                        //TODO 更新当前机器的时钟周期
                                        logicalclock.set(n.electionEpoch);
                                        //TODO 清空所有收到的投票信息
                                        recvset.clear();
                                        //TODO 如果收到的选票信息优于当前服务器选票信息,变更当前服务器的投票信息
                                        if (totalOrderPredicate(n.leader, n.zxid, n.peerEpoch, getInitId(), getInitLastLoggedZxid(), getPeerEpoch())) {
                                            updateProposal(n.leader, n.zxid, n.peerEpoch);
                                        } else {
                                            //TODO 更新选票为自己当前服务器的选票信息
                                            updateProposal(getInitId(), getInitLastLoggedZxid(), getPeerEpoch());
                                        }
                                        //TODO 发送选票信息
                                        sendNotifications();
                                    } else if (n.electionEpoch < logicalclock.get()) {
                                        //TODO 如果逻辑时钟小于当前逻辑时钟,忽略
                                        LOG.debug(
                                                "Notification election epoch is smaller than logicalclock. n.electionEpoch = 0x{}, logicalclock=0x{}",
                                                Long.toHexString(n.electionEpoch),
                                                Long.toHexString(logicalclock.get()));
                                        break;
                                    } else if (totalOrderPredicate(n.leader, n.zxid, n.peerEpoch, proposedLeader, proposedZxid, proposedEpoch)) {
                                        //TODO 选举周期相同,但是收到的选票更优,更新选票信息
                                        updateProposal(n.leader, n.zxid, n.peerEpoch);
                                        //TODO 发送选票信息
                                        sendNotifications();
                                    }
    
                                    //TODO 收到的选票信息放入集合中
                                    recvset.put(n.sid, new Vote(n.leader, n.zxid, n.electionEpoch, n.peerEpoch));
    
                                    //TODO 投票归档,查看是否已leader选举完成
                                    voteSet = getVoteTracker(recvset, new Vote(proposedLeader, proposedZxid, logicalclock.get(), proposedEpoch));
    
                                    if (voteSet.hasAllQuorums()) {
    
                                        while ((n = recvqueue.poll(finalizeWait, TimeUnit.MILLISECONDS)) != null) {
                                            if (totalOrderPredicate(n.leader, n.zxid, n.peerEpoch, proposedLeader, proposedZxid, proposedEpoch)) {
                                                recvqueue.put(n);
                                                break;
                                            }
                                        }
    
                                        if (n == null) {
                                            setPeerState(proposedLeader, voteSet);
                                            Vote endVote = new Vote(proposedLeader, proposedZxid, logicalclock.get(), proposedEpoch);
                                            leaveInstance(endVote);
                                            return endVote;
                                        }
                                    }
                                    break;
                                case OBSERVING:
                                    LOG.debug("Notification from observer: {}", n.sid);
                                    break;
                                case FOLLOWING:
                                case LEADING:
    
                                    if (n.electionEpoch == logicalclock.get()) {
                                        recvset.put(n.sid, new Vote(n.leader, n.zxid, n.electionEpoch, n.peerEpoch, n.state));
                                        voteSet = getVoteTracker(recvset, new Vote(n.version, n.leader, n.zxid, n.electionEpoch, n.peerEpoch, n.state));
                                        if (voteSet.hasAllQuorums() && checkLeader(recvset, n.leader, n.electionEpoch)) {
                                            setPeerState(n.leader, voteSet);
                                            Vote endVote = new Vote(n.leader, n.zxid, n.electionEpoch, n.peerEpoch);
                                            leaveInstance(endVote);
                                            return endVote;
                                        }
                                    }
    
                                    outofelection.put(n.sid, new Vote(n.version, n.leader, n.zxid, n.electionEpoch, n.peerEpoch, n.state));
                                    voteSet = getVoteTracker(outofelection, new Vote(n.version, n.leader, n.zxid, n.electionEpoch, n.peerEpoch, n.state));
    
                                    if (voteSet.hasAllQuorums() && checkLeader(outofelection, n.leader, n.electionEpoch)) {
                                        synchronized (this) {
                                            logicalclock.set(n.electionEpoch);
                                            setPeerState(n.leader, voteSet);
                                        }
                                        Vote endVote = new Vote(n.leader, n.zxid, n.electionEpoch, n.peerEpoch);
                                        leaveInstance(endVote);
                                        return endVote;
                                    }
                                    break;
                                default:
                                    LOG.warn("Notification state unrecognized: {} (n.state), {}(n.sid)", n.state, n.sid);
                                    break;
                            }
                        } else {
                            if (!validVoter(n.leader)) {
                                LOG.warn("Ignoring notification for non-cluster member sid {} from sid {}", n.leader, n.sid);
                            }
                            if (!validVoter(n.sid)) {
                                LOG.warn("Ignoring notification for sid {} from non-quorum member sid {}", n.leader, n.sid);
                            }
                        }
                    }
                    return null;
                } finally {
                    try {
                        if (self.jmxLeaderElectionBean != null) {
                            MBeanRegistry.getInstance().unregister(self.jmxLeaderElectionBean);
                        }
                    } catch (Exception e) {
                        LOG.warn("Failed to unregister with JMX", e);
                    }
                    self.jmxLeaderElectionBean = null;
                    LOG.debug("Number of connection processing threads: {}", manager.getConnectionThreadCount());
                }
            }
    

    相关文章

      网友评论

          本文标题:Zookeeper之Leader选举

          本文链接:https://www.haomeiwen.com/subject/uqbnaktx.html