【redis】redis变慢排查思路

作者: Y了个J | 来源:发表于2020-10-22 14:18 被阅读0次

【redis】redis变慢排查思路
Redis变慢了，怎么排查？
自我系统学习Redis小记-08
redis-变慢
好烦，一封报警邮件，大量服务节点 redis 响应超时，又得要捉
redis线上超时，怎么办
Redis变慢了，你会怎么排查(二)
Redis变慢了，你会怎么排查(四)
Redis变慢了，你会怎么排查(五)
Redis变慢了，你会怎么排查(六)

Redis作为内存数据库，拥有非常高的性能，单个实例的QPS能够达到10W左右。但我们在使用Redis时，经常时不时会出现访问延迟很大的情况，如果你不知道Redis的内部实现原理，在排查问题时就会一头雾水。

很多时候，Redis出现访问延迟变大，都与我们的使用不当或运维不合理导致的。
这篇文章我们就来分析一下Redis在使用过程中，经常会遇到的延迟问题以及如何定位和分析。

慢日志查询

1、首先，第一步，建议你去查看一下Redis的慢日志。Redis提供了慢日志命令的统计功能，我们通过以下设置，就可以查看有哪些命令在执行时延迟比较大。
首先设置Redis的慢日志阈值，只有超过阈值的命令才会被记录，这里的单位是微妙，例如设置慢日志的阈值为5毫秒，同时设置只保留最近 1000 条慢日志记录：

# 命令执行超过5毫秒记录慢日志
CONFIG SET slowlog-log-slower-than 5000
# 只保留最近1000条慢日志
CONFIG SET slowlog-max-len 1000

设置完成之后，所有执行的命令如果延迟大于5毫秒，都会被Redis记录下来，我们执行SLOWLOG get 5查询最近5条慢日志：

127.0.0.1:6379> SLOWLOG get 5
1) 1) (integer) 32693       # 慢日志ID
   2) (integer) 1593763337  # 执行时间
   3) (integer) 5299        # 执行耗时(微妙)
   4) 1) "LRANGE"           # 具体执行的命令和参数
      2) "user_list_2000"
      3) "0"
      4) "-1"
2) 1) (integer) 32692
   2) (integer) 1593763337
   3) (integer) 5044
   4) 1) "GET"
      2) "book_price_1000"

通过查看慢日志记录，我们就可以知道在什么时间执行哪些命令比较耗时，如果你的业务经常使用O(n)以上复杂度的命令，例如sort、sunion、zunionstore，或者在执行O(n)命令时操作的数据量比较大，这些情况下Redis处理数据时就会很耗时。

如果你的服务请求量并不大，但Redis实例的CPU使用率很高，很有可能是使用了复杂度高的命令导致的。
解决方案:就是，不使用这些复杂度较高的命令，并且一次不要获取太多的数据，每次尽量操作少量的数据，让Redis可以及时处理返回。

大key

如果查询慢日志发现，并不是复杂度较高的命令导致的，例如都是SET、DELETE操作出现在慢日志记录中，那么你就要怀疑是否存在Redis写入了大key的情况。
如果一个key写入的数据非常大，Redis在分配内存时也会比较耗时。同样的，当删除这个key的数据时，释放内存也会耗时比较久。
Redis也提供了扫描大key的方法：

redis-cli -h $host -p $port --bigkeys -i 0.01

需要注意的是当我们在线上实例进行大key扫描时，Redis的QPS会突增，为了降低扫描过程中对Redis的影响，我们需要控制扫描的频率，使用-i参数控制即可，它表示扫描过程中每次扫描的时间间隔，单位是秒。

集中过期

有时你会发现，平时在使用Redis时没有延时比较大的情况，但在某个时间点突然出现一波延时，而且报慢的时间点很有规律，例如某个整点，或者间隔多久就会发生一次。
如果出现这种情况，就需要考虑是否存在大量key集中过期的情况。

Redis的过期策略采用主动过期+懒惰过期两种策略：
主动过期：Redis内部维护一个定时任务，默认每隔100毫秒会从过期字典中随机取出20个key，删除过期的key，如果过期key的比例超过了25%，则继续获取20个key，删除过期的key，循环往复，直到过期key的比例下降到25%或者这次任务的执行耗时超过了25毫秒，才会退出循环
懒惰过期：只有当访问某个key时，才判断这个key是否已过期，如果已经过期，则从实例中删除

解决方案是，在集中过期时增加一个随机时间，把这些需要过期的key的时间打散即可。
伪代码可以这么写：

# 在过期时间点之后的5分钟内随机过期掉
redis.expireat(key, expire_time + random(300))

这样Redis在处理过期时，不会因为集中删除key导致压力过大，阻塞主线程。

内存达到上限

有时我们把Redis当做纯缓存使用，就会给实例设置一个内存上限maxmemory，然后开启LRU淘汰策略。
当实例的内存达到了maxmemory后，你会发现之后的每次写入新的数据，有可能变慢了。
导致变慢的原因是，当Redis内存达到maxmemory后，每次写入新的数据之前，必须先踢出一部分数据，让内存维持在maxmemory之下。
这个踢出旧数据的逻辑也是需要消耗时间的，而具体耗时的长短，要取决于配置的淘汰策略：

allkeys-lru：不管key是否设置了过期，淘汰最近最少访问的key
volatile-lru：只淘汰最近最少访问并设置过期的key
allkeys-random：不管key是否设置了过期，随机淘汰
volatile-random：只随机淘汰有设置过期的key
allkeys-ttl：不管key是否设置了过期，淘汰即将过期的key
noeviction：不淘汰任何key，满容后再写入直接报错
allkeys-lfu：不管key是否设置了过期，淘汰访问频率最低的key（4.0+支持）
volatile-lfu：只淘汰访问频率最低的过期key（4.0+支持）
具体使用哪种策略，需要根据业务场景来决定。

fork耗时严重

要想避免这种情况，我们需要规划好数据备份的周期，建议在从节点上执行备份，而且最好放在低峰期执行。如果对于丢失数据不敏感的业务，那么不建议开启AOF和AOF重写功能。

网卡负载过高

之前我们就遇到这种问题，特点就是从某个时间点之后就开始变慢，并且一直持续。这时你需要检查一下机器的网卡流量，是否存在网卡流量被跑满的情况。

网卡负载过高，在网络层和TCP层就会出现数据发送延迟、数据丢包等情况。Redis的高性能除了内存之外，就在于网络IO，请求量突增会导致网卡负载变高。

如果出现这种情况，你需要排查这个机器上的哪个Redis实例的流量过大占满了网络带宽，然后确认流量突增是否属于业务正常情况，如果属于那就需要及时扩容或迁移实例，避免这个机器的其他实例受到影响。

运维层面，我们需要对机器的各项指标增加监控，包括网络流量，在达到阈值时提前报警，及时与业务确认并扩容。

总结

以上我们总结了Redis中常见的可能导致延迟增大甚至阻塞的场景，这其中既涉及到了业务的使用问题，也涉及到Redis的运维问题。

可见，要想保证Redis高性能的运行，其中涉及到CPU、内存、网络，甚至磁盘的方方面面，其中还包括操作系统的相关特性的使用。

作为开发人员，我们需要了解Redis的运行机制，例如各个命令的执行时间复杂度、数据过期策略、数据淘汰策略等，使用合理的命令，并结合业务场景进行优化。

作为DBA运维人员，需要了解数据持久化、操作系统fork原理、Swap机制等，并对Redis的容量进行合理规划，预留足够的机器资源，对机器做好完善的监控，才能保证Redis的稳定运行。

参考
 https://yq.aliyun.com/articles/73894?spm=a2c4e.11153940.0.0.2967407a9XO36B
https://yq.aliyun.com/articles/531067#cc2

【redis】redis变慢排查思路
Redis作为内存数据库，拥有非常高的性能，单个实例的QPS能够达到10W左右。但我们在使用Redis时，经常时不...
Redis变慢了，怎么排查？
Redis作为内存数据库，拥有非常高的性能，单个实例的QPS能够达到10W左右。但我们在使用Redis时，经常时...
自我系统学习Redis小记-08
18 | 波动的响应延迟：如何应对变慢的Redis？（上） 1、前言 Redis 突然变慢，不仅影响用户体验，而且...
redis-变慢
by shihang.mai Redis 作为优秀的内存数据库，其拥有非常高的性能，单个实例的 OPS 能够达到 ...
好烦，一封报警邮件，大量服务节点 redis 响应超时，又得要捉
一封报警邮件，大量服务节点 redis 响应超时。又来，好烦。 redis 响应变慢，查看日志，发现大量 Tim...
redis线上超时，怎么办
redis 响应变慢，查看日志，发现大量 TimeoutException。大量TimeoutException...
Redis变慢了，你会怎么排查(二)
存储大key 如果查询慢日志发现，并不是复杂度较高的命令导致的，例如都是SET、DELETE操作出现在慢日志记录中...
Redis变慢了，你会怎么排查(四)
实例内存达到上限有时我们把Redis当做纯缓存使用，就会给实例设置一个内存上限maxmemory，然后开启LRU...
Redis变慢了，你会怎么排查(五)
fork耗时严重如果你的Redis开启了自动生成RDB和AOF重写功能，那么有可能在后台生成RDB和AOF重写时...
Redis变慢了，你会怎么排查(六)
绑定CPU 很多时候，我们在部署服务时，为了提高性能，降低程序在使用多个CPU时上下文切换的性能损耗，一般会采用进...