美文网首页Python WebLinux
Redis - 主从和集群模式下的写延迟测试

Redis - 主从和集群模式下的写延迟测试

作者: 红薯爱帅 | 来源:发表于2021-07-17 10:23 被阅读0次

1. 概述

测试目标

测试redis主从模式redis集群模式下,写入master,从slave是否能够立即get到最新结果?如果get是旧的,从set之后多长时间可以get到新数据?

测试条件

  • 主从模式:master和slave分别部署在两台独立的vm,配置都是4c8g
  • 集群模式:3主3从,部署在一台机器,配置是4c8g
  • 测试资源:redis client采用pyredis和redis-py-cluster,通过locust做压力测试,部署到另外两台机器,分别是8c16g和4c8g

2. Test Results in Master-slave Mode

2.1. test case 1

load value

  • duration 10m
  • 10 Users
  • master cpu 11%
  • slave cpu 10%
  • rps 361
  • median response time 2ms

result

2.2. test case 2

load value

  • duration 10m
  • 100 Users
  • master cpu 50%
  • slave cpu 41%
  • rps 3907
  • median response time 4ms

result

2.3. test case 3

load value

  • duration 10m
  • 500 Users
  • master cpu 60%
  • slave cpu 59%
  • rps 7010
  • median response time 36ms

result

2.4. test case 4

load value

  • duration 15m
  • 1000 Users
  • master cpu 70%
  • slave cpu 69%
  • rps 9829
  • median response time 75ms

result

3. Test Results in Cluster Mode

redis集群下,做相同的测试,对比结果。

3.1. test case 1

load value

  • duration 10m
  • 100 Users
  • 6 instances's cpu 10-30% master, 10% slave
  • rps 3889
  • median response time 4ms

result

3.2. test case 2

load value

  • duration 10m
  • 500 Users
  • 6 instances's cpu 30-50% master, 10% slave
  • rps 6957
  • median response time 40ms

result

3.3. test case 3

load value

  • duration 10m
  • 1000 Users
  • 6 instances's cpu 50-60% master, 10% slave
  • rps 11996
  • median response time 50ms

result

4. 测试结论

关于读写分离

在主从模式下,slave是默认可读的,但是存在数据延迟,延迟随着并发用户数增加,先增加后降低,例如

  • 10users时,slave没有数据延迟
  • 100users时,slave有240个数据延迟,发生概率240/2298306=0.01%,最高
  • 500和1000users时,slave在高rps的情况下,数据延迟反而分别是3和4个。猜测原因是response time的增加掩盖了数据延迟的问题,response time分别是36ms和75ms

在集群模式下,slave默认不可读的,如果要读slave,需要创建connection之后执行readonly命令,告知redis-server允许数据延迟

在集群模式下,直接读slave,会收到Redirect Error,可以参考redirect机制。采用redis-cluster-client可以避免类似问题,如果采用redis-cli,记得加-c

redis集群的哈希slot redis集群的move redirect操作

所以,如果不要求数据强一致性,随意。如果要求数据强一致性

  • 并发量小的话,可以采用主从模式,只读master,不要读slave,维护方便,且够用
  • 并发很大的话,可以采用集群模式,可以连接到任一节点,随意读写,集群维护、代码开发、单request的响应时间等都会变差,但是支持高并发,最多支持1w个master节点,每个节点10GB的话,一共1TB内存

关于Redis集群

Redis集群是官方推荐的分布式解决方案,但是,生态还不健全,有待进一步发展,例如redis cluster proxyredis cluster clientredis cluster monitor/dashboard等。

所以,各家大厂纷纷自主开发了自己的redis相关项目,以满足自己的业务需求。如果没有迫切需求,还是不建议用cluster,主从模式很经典,基本可以满足90%业务需求。

5. 测试趣闻

打铁还需自身硬

刚开始,采用locust单进程1000users压测redis,没有出现slave数据延迟。
后来,单机6个locust进程同时压测redis,还是出不来。
此时,开始怀疑是不是用户太少,master与slave同步太快?
于是,还是单机6个locust进程,共计1w个user压测,已到redis maxclients限制,还是没达到预期。
调整redis maxclients到10w,压测1.5w,还是没有slave数据延迟。
最后,感觉单机8c16g压测两个4c8g估计不行,需要采用locust分布式测试方案。
Finally,采用两台机器,配置分别是8c16g和4c8g,部署分布式locust压测达到预期,出现了slave数据延迟。

压测资源需要足够稳定

压缩cluster时候,需要更换pyredis为redis-py-cluster,否则直接报错,因为pyredis不处理redirect。
在pyredis 1000 users很轻松的情况下,redis-py-cluster居然在100 users情况下,出现locust workder missing(报错greenlet.GreenletExit,感觉这个pip包redis-py-cluster不太稳定)的情况。
曾经一度怀疑是redis-py-cluster的问题,想用它压测一下redis主从,确认问题是否能复现。(当然,我现在也没深入看redis-py-cluster,不排查其问题)
后来,4c8g的压测机卡死了。
重启之后,再压缩cluster,500users和1000users都正常。

相关文章

网友评论

    本文标题:Redis - 主从和集群模式下的写延迟测试

    本文链接:https://www.haomeiwen.com/subject/cztwpltx.html