美文网首页
zk源码阅读39:Leader和Follower服务器启动期交互

zk源码阅读39:Leader和Follower服务器启动期交互

作者: 赤子心_d709 | 来源:发表于2017-08-17 21:04 被阅读159次

    摘要

    之前讲解了leader选举,选举完了之后,leader与learner的角色明确了,要先完成一些启动期的交互,主要是数据同步过程,这里大概介绍一下各步骤所对应的源码在哪,后续对类进行详细的分析

    启动期交互步骤

    步骤可参考源码分析26的,启动概述

    image.png

    0.创建Leader服务器和Follower服务器

    在选举出leader时,服务器角色明确了
    QuorumPeer#run

    不同服务器角色的创建

    1.Leader服务器启动Follower接收器LearnerCnxAcceptor(leader端)

    运行期间,Leader服务器需要和所有其余的服务器(统称为Learner)保持连接以确集群的机器存活情况,LearnerCnxAcceptor负责接收所有非Leader服务器的连接请求。

    Leader#lead

    cnxAcceptor = new LearnerCnxAcceptor();//等待learner的连接
    cnxAcceptor.start();
    

    2.Learner服务器开始和Leader建立连接。(learner端)

    所有Learner会找到Leader服务器,并与其建立连接。

    以Follower为例

    Follower#followLeader
    Learner#connectToLeader
    

    3.Leader服务器创建LearnerHandler(leader端)

    Leader接收到来自其他机器连接创建请求后,会创建一个LearnerHandler实例,每个LearnerHandler实例都对应一个Leader与Learner服务器之间的连接,其负责Leader和Learner服务器之间几乎所有的消息通信和数据同步。

    Leader.LearnerCnxAcceptor#run
    LearnerHandler#run
    

    4.向Leader注册(learner端)

    Learner完成和Leader的连接后,会向Leader进行注册,即将Learner服务器的基本信息(LearnerInfo),包括SID和ZXID,发送给Leader服务器。

    Follower#followLeader
    Learner#registerWithLeader
    

    5.Leader解析Learner信息,计算新的epoch(leader端)

    Leader接收到Learner服务器基本信息后,会解析出该Learner的SID和ZXID,然后根据ZXID解析出对应的epoch_of_learner,并和当前Leader服务器的epoch_of_leader进行比较,如果该Learner的epoch_of_learner更大,则更新Leader的epoch_of_leader = epoch_of_learner + 1。然后LearnHandler进行等待,直到过半Learner已经向Leader进行了注册,同时更新了epoch_of_leader后,Leader就可以确定当前集群的epoch了。

    LearnerHandler#run
    Leader#getEpochToPropose
    

    6.发送Leader状态。(leader端)

    计算出新的epoch后,Leader会将该信息以一个LEADERINFO消息的形式发送给Learner,并等待Learner的响应。

    LearnerHandler#run

    QuorumPacket newEpochPacket = new QuorumPacket(Leader.LEADERINFO, ZxidUtils.makeZxid(newEpoch, 0), ver, null); //发送leader状态,以LEADERINFO的形式
    

    7.Learner发送ACK消息。(learner端)

    Learner接收到LEADERINFO后,会解析出epoch和ZXID,然后向Leader反馈一个ACKEPOCH响应。

    Learner#registerWithLeader

    if (qp.getType() == Leader.LEADERINFO)
    ...
    QuorumPacket ackNewEpoch = new QuorumPacket(Leader.ACKEPOCH, lastLoggedZxid, epochBytes, null);//8.接受完了leader状态之后,要发送ACK消息
    

    8.数据同步(leader,learner端)

    Leader收到Learner的ACKEPOCH后,即可进行数据同步。
    这个后面源码详细讲,涉及DIFF,SNAP,TRUNC等操作

    learner端

    Follower#followLeader
    Learner#syncWithLeader
    

    leader端

    LearnerHandler#run
    

    9.启动Leader和Learner服务器。(learner和leader)

    当有过半Learner已经完成了数据同步,那么Leader和Learner服务器实例就可以启动了。

    leader端

    Leader#lead
    Leader#startZkServer
    

    learner
    Learner#syncWithLeader

    zk.startup();
    

    问题

    什么时候出现第5步中的learner的epoch比leader高的情况

    何时出现该情况,执行 epoch_of_leader = epoch_of_learner + 1
    其中epoch_of_learner 是learner的 acceptedEpoch

    因为选举的时候是按currentEpoch来的,大部分情况currentEpoch是acceptedEpoch相等的
    什么时候会出现learner的leader的acceptedEpoch高???

    refer

    http://blog.csdn.net/xhh198781/article/details/6587558
    http://www.aboutyun.com/thread-10286-1-1.html
    http://ju.outofmemory.cn/entry/138169

    相关文章

      网友评论

          本文标题:zk源码阅读39:Leader和Follower服务器启动期交互

          本文链接:https://www.haomeiwen.com/subject/ddmnrxtx.html