- 动画:http://thesecretlivesofdata.com/raft/
- github(也包含动画):https://raft.github.io/
- ——————————————————start election——————————————————————
- election timeout 选举超时时间 150ms-300ms(随机)
- 当第一个node抵达timeout时,此node成为candidate
- 他投票给他自己
- 发送投票请求给其他nodes
- 如果其他nodes在此轮次中尚未投票,就投票给这个候选node
- If the receiving node hasn't voted yet in this term then it votes for the candidate
- 并重置自己的timeout
- 一旦候选人得到多数选票,他就成为leader
- leader node 开始发送追加日志的消息给他的followers
- 这些消息按心跳超时指定的间隔发送
- 然后followers相应leader的信息
- 这个选举期将持续到某个追随者停止接受心跳并成为候选人
- ——————————————————leader down——————————————————————
- leader挂了,剩下的followers中第一个抵达timeout的node,成为候选人,重复上述操作,成为新的leader
- 此时新的leader会想所有nodes发送心跳信息,包括已经挂掉的old leader
- 需要大多数的投票保证每个任期只有一个leader
- ——————————————————split volt——————————————————————
- 如果同时有两个node都抵达timeout,那他们同时成为candidate
- 当这两个candidate获得的投票一样多的时候,开始分裂选举
- 所有的节点将等待,重新发起新的任期选取(上一任期中的两个候选人没有资格了)
- ——————————————————Log Replication——————————————————————
- 一旦有leader被选举出来,我们需要复制所有的变更到系统中所有其他的nodes
- 这是通过使用用于心跳的相同附加条目消息来完成的
- 首先,一个客户端发送一个数据变更给leader
- 这个变更被写入leader的log里面
- 然后这个变更会随下次心跳发送给followers
- 一旦大多数的followers承认,这个变更被认为提交,leader会给client一个提交响应
- leader发送指令给追随者,all nodes完成变更
- Raft甚至可以在网络分区面前保持一致
- 添加一个分区,将A&B 和 C&D&E分开(原先B时leader)
- A&B的leader还是B,C&D&E重新选举出leader:C(term+1)
- 我们尝试增加一个客户端,对两个leader发送数据变更请求
- B节点无法复制数据到大多数的追随者(CDE同步不到,并且任期也不一样),所以数据变更处于未提交状态
- C节点缺可以正常完成工作,因为她的任期(term)最新,且能同步到大多数的followers
- 现在网络修复好了,消除了分区
- old leader B,会看见更高的任期,他会降级为follower
- A、B节点都会回滚他们之前未提交的数据变更,并与现任leader的log做信息同步
- 到此为止,我们的日志(数据)在整个集群中保持一致
- ——————————————————End——————————————————————
网友评论