美文网首页运维面试精选
祸从天上来系列(1)线上Redis突然崩了?

祸从天上来系列(1)线上Redis突然崩了?

作者: 小胖学编程 | 来源:发表于2021-08-14 21:06 被阅读0次

人在公司做,祸从天上来。监控报出来很多慢接口...

监控出现了很多慢接口,使用skywalking的链路追踪,发现是问题出现在调用Redis。查询Redis的某些key时间500ms。

环境:使用的是腾讯云Redis集群

1. 排查思路

1. 由于Redis服务端是单线程的IO复用模型,考虑是不是该key查询出大对象导致redis被阻塞?

然后翻看业务代码,组装出Redis的key。在控制台调用发现,该key查询出来的对象并不是一个大对象。

2. 是一个key有问题,还是一些key有问题?

查询skywalking上的慢接口,发现是一些key存在问题,查询性能低。但是这些key并没有共通点。

判断下是否是热点key导致节点的访问量偏移。是不是节点性能问题造成的集群性能瓶颈。

3. 是不是有key*等耗时的操作?

查询Redis的调用日志(腾讯云提供)并没有发现key*等危险的命令。

4. 是不是高流量产生大量命令,导致Redis性能问题?

  1. 在Grafana看板上:查询Command Calls / sec指标。
  2. 在Grafana看板上查看服务的流量数据

发现其峰刺出现的时间点并不吻合,不是高流量引发的Redis竞争问题。

2. 问题定位

通过以上排查,看不出自己项目代码有任何问题?那么是不是腾讯云redis出现故障了?

腾讯云redis架构.png

云服务器是我们系统,Redis分片节点是真正的存储中心。中间的Proxy出现问题,也可以导致Redis出现慢查询呀!

3. 水落石出

在腾讯云redis控制台:

腾讯云proxy慢查询.png 腾讯云redis慢查询.png

由此可知:我们系统本身是没有问题的,而是腾讯云自己出现的故障。

将问题交给腾讯云客服,给出的答案是cache节点抖动导致,然后进行了数据迁移。最后问题解决了

4. 经验教训

  1. redis出现故障的排查思路。
  2. 因为购买的是腾讯云Redis服务,所以开始的排查方向是自己项目某些代码所致。在排查陷入困境的时候,可以考虑Redis本身是不是出现问题。

相关文章

  • 祸从天上来系列(1)线上Redis突然崩了?

    人在公司做,祸从天上来。监控报出来很多慢接口... 监控出现了很多慢接口,使用skywalking的链路追踪,发现...

  • redis02-redis安装

    redis系列文章 1、Redis下载 从 https://redis.io/download 下载最新版本本教程...

  • 【风语阁】||我只是想活着

    1, “鼠在家中坐,祸从天上来”,说得大抵就是我了。 那一天,我还在睡梦中,突然,一把冰冷沉重的斧头敲在我头上,我...

  • write smart proxy step by step 1

    为什么写这系列? 前段时间《7月,redis迷情》里面提到,我司线上 Redis Cluster + Smart ...

  • 突然崩了

    听歌能听哭,看书能看哭,寻思练下舞蹈呼啦两下又想哭,努力擦去眼泪,那就转移注意力,看看抖音 还是哭。 看看简书,还...

  • 外向的孤独患者有何不可

    最怕突然涌上来的失落感,其实也并没有什么突然涌上来,大多数感觉都是日积月累然后突然心态崩了吧。 以前总觉得身边会有...

  • Spring Boot 2.0 整合 Redis(Lettuce

    【Redis 系列】 Redis 数据类型【Redis 系列】 Redis 数据命令【Redis 系列】 Redi...

  • 今年犯太岁有那些生肖?

    中国有句话:太岁当头坐,无福并有祸,太岁现身来,无疾恐破财,人在家中坐,祸从天上来! 太岁又称太岁星君,太岁就是天...

  • 直播家中坐,祸从天上来

    辽宁一李姓女主播在自己家里被杀,身中数十刀身亡,凶手为一四川籍20岁男子胡某。 胡某为李主播粉丝管理员。因删除李的...

  • redis系列(二)- 语法与命令

    redis系列文章:redis系列(一)- 安装与启动redis系列(二)- 语法与命令 一、简述 Redis支持...

网友评论

    本文标题:祸从天上来系列(1)线上Redis突然崩了?

    本文链接:https://www.haomeiwen.com/subject/emwebltx.html