美文网首页程序员
raft 解读系列(1) 之 原理

raft 解读系列(1) 之 原理

作者: 小聪明李良才 | 来源:发表于2016-10-10 16:35 被阅读1830次

    一致性的来龙去脉

    先回答一个问题:为什么分布式系统中一致性问题那么难?


    首先我们知道在单机系统中不存在数据的一致性问题,在分布式系统中,由于采用多机器进行分布式部署,必然带来数据的复制,那为什么引入数据的复制呢?主要试图解决的两个问题:

    • 可用性:避免单点故障
    • 性能:多机器提供相同服务

    既然数据的复制不可避免,那么就勇敢的直面它,不过在此之前,让我们先认清下一致性的到底试图解决什么?

    一致性问题最早出现在Reaching Agreement in the Presence of Faults中,简单来说一致性就是系统中各个独立的部分就某件事达成一致,但就是让大家都达成统一意见就是这么难,出现了Paxos, Zab , Raft等算法。本文重点介绍raft算法,因此下面会就raft具体展开。

    raft中为了保证一致性,都有哪些方法呢?

    • Leader Election
    • Log Replication

    先讲第一个,Leader Election,顾名思义就是领袖选举,先来搞清楚为什么会有领袖选举?因为在分布式环境下,多个机器之间要进行数据的复制,如果没有一个leader,所有的机器都能够提供读/写服务,那就需要保证(NXN)个数据复制都要一直成功,但是如果有了一个leader后,所有的读写都由leader来协调,那只要保证N个数据的复制成功,一下子就减轻了复杂度。

    下面我们就开始正式的学习Leader Election了。

    Leader Election

    在raft中每个节点都属于3种角色中的一个

    1. Leader(领袖)
    2. Follower(群众)
    3. Candidate(候选人)

    这3种角色的转换关系如下:

    角色转换图

    图中有个新的概念叫:term(任期),每个领导人都有自己的任期,任期到了就需要开始新的一轮选举,在每个任期内,可以没有leader,但是不能出现大于两个的leader。


    任期图

    raft将整个时间轴按照任期来划分,每个任期都起始于选举,即出现有Candidate开始竞选leader的时候。

    我们对照着状态图来说下正常的选举过程。

    1. 系统刚启动的时候,每个节点都是follower状态,如果节点在follower状态期间,在一个election timeout时间内没有收到来自Leader的消息,则可以假设没有leader,于是启动选举过程,新增自己本地的任期
    2. 此时节点转换到了Candidate状态,首先当然是投票给自己,并且发送RequestVote RPCs给其他follower,让他们支持自己当leader,此时在收到投票结果后,可能会出现3种结果
      2.1 获得了大多数的认可,赢得了投票,成为leader
      2.2 发现了别人已经成为leader了或者自己的任期落后于别人的任期,自动转换为follower
      2.3 一个选举周期过去了,也没有赢得竞选,开始新一轮竞选

    画个图说明下:


    写过程

    针对上面的每一个步骤leader都可能故障的讨论,可以参考Raft 为什么是更易理解的分布式一致性算法

    关于代码的实现,会在后续的文章中给出,敬请期待

    参考

    当我们在谈论分布式系统的时候我们在谈论什么译

    关于分布式一致性的探究

    Raft 为什么是更易理解的分布式一致性算法

    一致性问题和Raft一致性算法

    Kafka设计解析(二)- Kafka High Availability (上)

    相关文章

      网友评论

        本文标题:raft 解读系列(1) 之 原理

        本文链接:https://www.haomeiwen.com/subject/chhvyttx.html