redis集群模式

作者: skipper_shou | 来源:发表于2021-02-20 17:29 被阅读0次

Redis集群部署
11.Redis集群入门
Docker环境搭建redis集群(主从模式)
python操作redis
【redis】Redis-Cluster集群模式
实现Nginx负载均衡、Session共享、Redis集群（二）
os x build redis cluster
redis源码分析（八）：集群--cluster
redis面试必问（下）
第五章----Redis三种集群详解

前言

因为之前线上redis集群主从切换，client端未感知，导致往从库写数据报错，所以学习并整理了redis集群相关知识点。

主从复制

主从复制，是只从一台redis服务器的数据，复制到其他的一台或者多台redis服务器上。
前者为主节点（master），后者为从节点（slave）。
数据的复制只能从主节点到从节点。
主从复制主要起到以下几个作用：

数据冗余：实现了数据的热备份
故障恢复：当主节点出现问题时，可以由从节点提供服务，实现快速恢复。
负载均衡：主节点提供写服务，从节点提供读服务，从而达到负载均衡的作用，常用于读多写少的功能，能有效提高服务器的并发量。
高可用基础：作为哨兵和集群的基础，为redis的高可用提供基础。

如下图，即为主从复制的整个过程：

redis主从复制.png

主从复制的注意点：

1.延迟与不一致：repl-disable-tcp-nodelay no/yes ，当配置为yes时，TCP会对包进行合并从而减少带宽并降低频率，从节点数据延迟增加，一致性变差。
2.数据过期问题：在redis 3.2之前，从节点过期数据需要主节点来进行删除，当处于惰性删除时，从节点会获取到已经过期的数据，将redis升级到3.2之后即可解决。
3.故障转移：由于没有哨兵等机制，主从节点如果出现问题而发生更改时，需要修改程序或者另外写程序进行自动切换。
4.因为主从复制需要从节点发送指令到master，如果从节点过多，会导致主节点繁忙从而影响正常业务。

哨兵模式

在主从复制的基础上，引入了哨兵模式，提供了高可用解决方案，可以在没有人工干预的情况下实现故障恢复能力。
哨兵是一个独立的进程，监控各个节点的监控状态。
客户端通过连接sentinel来获取对应redis的主从节点。
哨兵模式主要起到以下几个作用：

1.监控：哨兵会不断检查主节点和从节点是否运作正常。
2.自动故障转移：当主节点无法正常工作时，哨兵会开始自动故障转移操作，将从节点选举为主节点，并让其他从节点改为复制新的主节点。
3.配置提供者：客户端初始化时，通过连接哨兵来获取当前redis服务的主节点地址。
4.通知：哨兵可以将各节点的状态发送给客户端。

扩展：我们公司通过对redis的扩展，一组sentinel里面连接了多个master，对key通过一致性hash来获取对应的分片，从而实现负载均衡。

redis sentinel集群.png

sentinel常用配置：

sentinel down-after-milliseconds <master-name> <milliseconds>
指定主节点应答哨兵sentinel的最大时间间隔，超过这个时间，哨兵主观上认为主节点下线（即主观下线），默认30秒
sentinel monitor <master-name> <ip> <redis-port> <quorum>
哨兵sentinel监控的redis主节点，其中quorum指指定个数的sentinel认为master不可达，则认为主节点客观下线。
sentinel parallel-syncs <master-name> <numslaves>
指定了在发生failover主备切换时，最多可以有多少个slave同时对新的master进行同步。这个数字越小，完成failover所需的时间就越长；反之，但是如果这个数字越大，就意味着越多的slave因为replication而不可用。可以通过将这个值设为1，来保证每次只有一个slave，处于不能处理命令请求的状态。
sentinel known-sentinel
指定主节点所连接的sentinel节点信息

sentinel常见命令：

sentinel is-master-down-by-addr
当主节点主观下线时，向其他sentinel节点询问对该节点的状态判断，如果超过quorum个数的节点判定不可达，则判断该主节点为客观下线
SENTINEL masters / SENTINEL master <master_name>/SENTINEL slaves <master_name>
显示所有主节点 / 显示指定主节点 / 显示主节点的所有从节点状态
SENTINEL get-master-addr-by-name <master_name>
返回主节点的IP和端口号（如果在进行failover或者已经完成，则显示被提升为主节点的从节点信息）
SENTINEL reset <pattern>
重置名字匹配该正则表达式的所有的主节点的状态信息，清除它之前的状态信息，以及从节点的信息，并自动重新发现。
SENTINEL failover <master_name>
强制当前 Sentinel 节点执行 failover，并且不需要得到其他 Sentinel 节点的同意。但是 failover 后会将最新的配置发送给其他 Sentinel 节点。
info
info信息下会有当前sentinel的各种信息：
- 1.master：当前sentinel监听的主节点的状态
SENTINEL REMOVE <name>
用来移除指定的主节点：主节点不再被监控，并且将被从Sentinel的内部状态中被完全移除，所以不会被SENTINEL masters列出。

sentinel集群 master下线.png

发布/订阅消息列表

+reset-master <instance details> --- 主节点被重置。
+slave <instance details> --- 一个新的从节点被发现和关联。
+failover-state-reconf-slaves <instance details> --- 故障转移状态被转换为reconf-slaves状态。
+failover-detected <instance details> --- 另一个Sentinel开始了故障转移或者其他的外部实体被发现（一个关联的从节点变为主节点）。
+slave-reconf-sent <instance details> --- 为了给新的从节点重新配置，sentinel 中的leader发送SLAVEOF命令到这个实例。
+slave-reconf-inprog <instance details> --从节点被重新配置展示一个主节点的从节点，但是同步过程尚未完成。
+slave-reconf-done <instance details> --- 从节点现在和主节点是同步的。
-dup-sentinel <instance details> --指定的主节点，一个或者多个sentinels被移除，因为是重复的。
+sentinel <instance details> --- 这个主节点的一个新的sentinel被发现和关联。
+sdown <instance details> --- 指定的实例现在处于主观下线状态。
-sdown <instance details> --- 指定的实例不再处于主观下线状态。
+odown <instance details> --- 指定的实例现在处于客观下线状态。
-odown <instance details> --- 指定的实例现在不处于客观下线状态。
+new-epoch <instance details> --- 当前时间被更新。
+try-failover <instance details> --- 准备新的故障转移，等待大多数的选举。
+elected-leader <instance details> --- 赢得了选举，开始故障转移。
+failover-state-select-slave <instance details> --- 新的故障转移状态是select-- slave：我们正在寻找合适提升为主节点的从节点。
no-good-slave <instance details> --- 没有合适进行提升的从节点。一般会在稍后重试，但是这或许会改变并且终止故障转移。
selected-slave <instance details> --- 我们找到了指定的从节点来进行提升。
failover-state-send-slaveof-noone <instance details> --- 我们尝试重新配置这个提升后的主节点，等待它切换。
failover-end-for-timeout <instance details> --- 故障转移由于超时而停止，无论如何从节点最后被配置为复制新的主节点。
failover-end <instance details> --- 故障转移由于成功而停止，所有的从节点被配置为复制新的主节点。
switch-master <master name> <oldip> <oldport> <newip> <newport> --- 配置改变后，主节点新的IP和地址都是指定的。这是大多数外部用户感兴趣的消息。
+tilt --- 进入Tilt模式。
-tilt --- 退出Tilt模式。

呼应前言，之前线上出现，手动failover的时候，客户端没有感知主从切换，导致始终往老的主节点写数据，此时老的主节点已经变成从节点，写入报错。
经排查，是因为线上redis配置了7个sentinel，其中4个不可用，而quorum为2，这导致，当2个sentinel节点同意主节点不可用，尝试开始故障转移，但是没有至少4个sentinel节点授权并开始，所以sentinel就不会开始故障转移，也就不会publish相关消息，导致客户端不感知。

集群模式

待完善

Redis集群部署
Redis集群部署 Redis集群有多种部署模式，包括主从模式、哨兵模式、集群模式主从模式主从模式可以是一...
11.Redis集群入门
本主题，介绍了Redis的集群配置与编程入门，其实Redis的集群还包含主从集群模式，哨兵集群模式（Redis 5...
Docker环境搭建redis集群(主从模式)
Docker环境搭建redis集群(主从模式) 序本文将介绍如何在docker中部署redis集群(主从模式)。...
python操作redis
集群模式下操作redis
【redis】Redis-Cluster集群模式
redis最开始使用主从模式做集群；后来为了高可用提出来哨兵模式；演变出cluster集群模式,此模式是redis...
实现Nginx负载均衡、Session共享、Redis集群（二）
感谢博主：spring整合redis(哨兵模式)Redis高可用集群-哨兵模式（Redis-Sentinel）搭建...
os x build redis cluster
一、集群搭建先以集群模式运行redis示例，然后使用redis/src下的ruby脚本redis-trib.rb...
redis源码分析（八）：集群--cluster
redis源码分析（八）：集群--cluster redis集群我们可以使用sentinel的模式（详情点击这里）...
redis面试必问（下）
接上一章redis面试必问（上） 7.redis 集群模式的工作原理能说一下么？在集群模式下，redis 的 ke...
第五章----Redis三种集群详解
Redis集群的三种模式主从复制（master/slave）哨兵模式（sentinel）集群模式（clust...