整个集群完成Leader选举后,Leader会向Leader服务器进行注册。当Leader向Leader服务器完成注册后,就进入主从数据同步环节。也就是Leader会将自己的数据同步给从服务器。
根据ZXID来判断同步策略
这里有三个ZXID
-
peerLastZxid:从服务器最后处理的ZXID
-
minCommittedLog:Leader服务器proposal缓存队列committedLog中最小的ZXID
-
maxCommittedLog:Leader服务器proposal缓存队列committedLog中最大的ZXID
四种数据同步策略:
- 直接差异化同步(DIFF同步)
- 先回滚再差异化同步(TRUNC + DIFF同步)
- 仅回滚同步(TRUNC同步)
- 全量同步(SNAP同步)
直接差异化同步(DIFF同步)
场景:
peerLastZxid 介于 minCommittedLog 和 maxCommittedLog 之间。
leader向从服务器发送一个DIFF指令,告诉从服务器进入DIFF同步阶段,leader将要把一些proposal同步给从。针对每个proposal,leader都会发送两个数据包,分别是proposal内容数据包和commit指令数据包。
假如某个时刻leader服务器的建议缓存队列对应的ZXID依次是:
0x500000001、0x500000002、0x500000003、0x500000004、0x500000005
而从服务器最后处理的ZXID为0x500000003。
那么leader就会依次将0x500000004、0x500000005两个proposal同步给从服务器。
先回滚再差异化同步(TRUNC + DIFF同步)
场景:
假设有A、B、C三台机器,加入某一时刻B是leader,此时的epoch为5,ZXID包括0x500000001、0x500000002。此时leader正要处理ZXID:0x500000003,并且已经将该事务写入到了自己机器的事务日志中了,就在将该proposal发给从服务器的时候,B挂了,也就是leader挂了,proposal没有同步出去。
此时zk集群会进行新一轮的leader选举,A成为leader,epoch为6。并又提交了两个事务0x600000001、0x600000002。此时B重启,并开始同步数据。
leaderA发现B中的ZXID:0x500000003自己没有,那么就会让B先回滚到和自己ZXID一样的最近的ZXID。再DIFF同步。
此时B,先回滚到0x500000002,再DIFF同步0x600000001、0x600000002
(这里是6开头了啊,不是5开头)
仅回滚同步(TRUNC同步)
场景:
peerLastZxid 大于 maxCommittedLog
TRUNC + DIFF同步的第一步。
也就是A成为leader后,还没有新的事务0x600000001、0x600000002进来,B就起来了。这个时候,B直接回滚就好了。
全量同步(SNAP同步)
场景1:
peerLastZxid 小于 minCommittedLog
场景2:
leader服务器上没有proposal缓存队列。
在这两种场景下,leader服务器都无法直接使用建议缓存队列进行数据同步,没办法了,只能全量同步了。
所谓全量同步就是leader服务器将本机上的全量内存数据都同步给从服务器。
网友评论