美文网首页redis研究所
Redis Sentinel哨兵的基本实现原理

Redis Sentinel哨兵的基本实现原理

作者: 百里江山 | 来源:发表于2020-01-11 21:17 被阅读0次

    Redis Sentinel的三个定时任务、主观下线和客观下线、Sentinel领导者选举、
    故障转移

    1. 哨兵监控master节点定时器

    每隔10秒,每个Sentinel节点会向主节点和从节点发送info命令获取最新的主从节点信息

    • 127.0.0.1:6379>info replication
      image.png

    第一个定时器的作用

    1. 通过info主节点获取从节点信息,更新最新的拓扑图
    2. 感知新节点加入
    3. 节点异常或故障转移, 通过info更新最新节点拓扑信息


      image.png

    第二个定时器的作用

    1. 每隔2秒,每个Sentinel节点会向Redis数据节点的__sentinel__:hello频道上发送该Sentinel节点对于主节点的判断以及当前Sentinel节点的信息
    2. 同时每个Sentinel节点也会订阅该频道,来了解其他Sentinel节点以及它们对主节点的判断
    3. 发现新的Sentinel节点:通过订阅主节点的__sentinel__:hello了解其他的Sentinel节点信息,如果是新加入的Sentinel节点,将该Sentinel节点信息保存起来,并与该Sentinel节点创建连接
    4. Sentinel节点之间交换主节点的状态,作为后面客观下线以及领导者选举的依据


      image.png

    第三个定时器的作用

    1. 每隔1秒,每个Sentinel节点会向主节点、从节点、其余Sentinel节点发送一条ping命令做一次心跳检测,来确认这些节点当前是否可达


      image.png

    主观下线和客观下线

    主观判断

    • 每个Sentinel节点会每隔1秒对主节点、从节点、其他Sentinel节点发送ping命令做心跳检测,当这些节点超过down-after-milliseconds没有进行有效回复,Sentinel节点就会对该节点做失败判定,这个行为叫做主观下线
    • 可能存在误判


      image.png

    客观判断

    1. 当Sentinel主观下线的节点是主节点时,该Sentinel节点会通过sentinel is-master-down-by-addr命令向其他Sentinel节点询问对主节点的判断,当超过<quorum>个数,Sentinel节点认为主节点确实有问题
    2. 从节点、Sentinel节点在主观下线后,没有后续的故障转移操作。
    3. 命令格式: sentinel is-master-down-by-addr <ip> <port> <current_epoch> <runid>
    ip:主节点IP。
    ·port:主节点端口。
    ·current_epoch:当前配置纪元。
    ·runid:此参数有两种类型,不同类型决定了此API作用的不同。
    当runid等于“*”时,作用是Sentinel节点直接交换对主节点下线的判定
    
    1. sentinel对主节点做主观下线后, 会向其它sentinel节点发送的命令: sentinel is-master-down-by-addr 127.0.0.1 6379 0 *返回结果包含三个参数,如下所示:
    ·down_state:目标Sentinel节点对于主节点的下线判断,1是下线,0是
    在线。
    ·leader_runid:当leader_runid等于“*”时,代表返回结果是用来做主节点
    是否不可达,当leader_runid等于具体的runid,代表目标节点同意runid成为
    领导者。
    ·leader_epoch:领导者纪元。
    

    领导者Sentinel节点选举

    假如Sentinel节点对于主节点已经做了客观下线,那么是不是就可以立即进行故障转移了?当然不是,实际上故障转移的工作只需要一个Sentinel节点来完成即可,所以Sentinel节点之间会做一个领导者选举的工作,选出一个Sentinel节点作为领导者进行故障转移的工作

    判定主节点客观下线后, 如何做出转移工作呢? 需要在sentinel集群中选出一个领导者, 故障转移工作交由领导工作

    投票过程

    每一个Sentinel都有可能成为领导者, redis借用了raft算法思想,请参考:Raft原理

    1. 当sentinel-1首先发现主节点下线, 会向其它sentinel节点发送sentinel is-master-down-by-addr命令要求投票给自己.
    2. 收到命令的Sentinel节点, 如果没有同意过其他Sentinel节点的sentinel is-master-down-by-addr命令,则会同意, 否则拒绝.
    3. sentinel-1收到票数大于等于<quorum>,就成为领导者.
    4. 如果此过程没有产生领导者,将进入下一次选举.直到选出领导者.
    image.png

    故障转移

    领导者选举出的Sentinel节点负责故障转移

    • 在从节点列表中选出一个节点作为新的主节点, 选择方法如下:
    1. 过滤:“不健康”(主观下线、断线)、5秒内没有回复过Sentinel节
      点ping响应、与主节点失联超过down-after-milliseconds*10秒。
    2. 择slave-priority(从节点优先级)最高的从节点列表,如果存在则
      返回,不存在则继续。
    3. 选择复制偏移量最大的从节点(复制的最完整),如果存在则返
      回,不存在则继续。
    4. 选择runid最小的从节点


    • Sentinel领导者节点会对第一步选出来的从节点执行slaveof no one命令让其成为主节点。
    • Sentinel领导者节点会向剩余的从节点发送命令,让它们成为新主节
      点的从节点,复制规则和parallel-syncs参数有关
    • Sentinel节点集合会将原来的主节点更新为从节点,并保持着对其关
      注,当其恢复后命令它去复制新的主节点

    如何查看日志

    • 以下日志是主观判断下线和客观判断下线.
    • sdown 是主观
    • odown 是客观, 投票数达到quorum数量则进行故障转移
    62162:X 10 Jan 2020 20:05:20.216 # +sdown master mymaster 192.168.21.22 6383
    62162:X 10 Jan 2020 20:05:20.269 # +odown master mymaster 192.168.21.22 6383 #quorum 2/2
    62162:X 10 Jan 2020 20:05:20.269 # +new-epoch 16 #更新自己的新纪元.
    # 投票给58c4052a7ab0953c4a6393be270b693b2ded243a sentinel节点, 可以在sentinel.conf配置里查看myid
    62144:X 10 Jan 2020 20:05:20.276 # +vote-for-leader 58c4052a7ab0953c4a6393be270b693b2ded243a 16
    -sdown master mymaster 192.168.21.22 6383 # 撤销主观判断下线.
    

    节点下线与上线

    节点下线

    分临时下线(一般是维护)或永久下线(一般是换机器,升级,降级,缩容)

    1. 可以是主节点, 从节点,sentinel节点下线.
    2. 手动发起故障转移sentinel failover <mymaster>

    从节点的作用

    1. 当发生故障,从节点可以切换成主节点,继续提供服务
    2. 扩展主节点的读能力.适合读多写少

    sentinel支持的命令

    ping、sentinel、subscribe、unsubscribe、psubscribe、punsubscribe、publish、info、role、client、shutdown
    

    注意

    哨兵模式很依赖时间, 部署各个节点的机器时间尽量要同步,否则日志的时序性会混乱,例如
    可以给机器添加NTP服务来同步时间
    https://www.jianshu.com/p/386815866cd4

    参考

    1. https://redis.io/topics/sentinel
    2. Redis开发与运维

    相关文章

      网友评论

        本文标题:Redis Sentinel哨兵的基本实现原理

        本文链接:https://www.haomeiwen.com/subject/wnbpactx.html