美文网首页
故障问题带来的反思

故障问题带来的反思

作者: 洛子墟 | 来源:发表于2019-08-09 16:39 被阅读0次

问题描述

由于电源跳闸,导致4台物理服务器宕机,共影响25台虚拟机。其中一台虚拟机为我司的redis服务器,且该缓存服务器为单点。
其中商品中心的价格、商品相关的数据均存放在这台缓存服务器中。

然后就悲剧了4个小时,一大半的交易系统都受到影响.
那么问题来了?

  • 这么重要的基础系统为什么会是单点?
  • 为什么redis宕机后需要4个小时来解决问题?

胁迫"升级"是不是可行?

历史债带来的问题,公司远古时代,这台redis是作为缓存服务器的,大家随便用,也没有做主从.
后来基础整体框架升级了,缓存采用codis了,然后公司3/4的服务升级了,但是剩下1/4的人还是用的远古redis服务器.
业务繁忙我就不升级,你怎么办吧?

然后就是喜闻乐见的撕逼环节了,甚至让业务写保证书,挂了自己负责.
最后黑天鹅发生了,单点服务事发了.
其实运维逻辑上可以对原有的单点进行高可用转化,但是业务不就是更加没有动力升级了吗?
然后进入两难地步, 运维和业务顶死了.
胁迫升级失败,最后大家抱在一起死了.

架构的合理性

商品数据预热需要3个小时.

另外一个坑,商品的预热的逻辑相当复杂,redis中不是缓存数据,而是持久化数据.
而且还需要大量计算才能推进缓存.这个也是架构规范中所不允许的.

结果

too busy.jpg

相关文章

  • 故障问题带来的反思

    问题描述 由于电源跳闸,导致4台物理服务器宕机,共影响25台虚拟机。其中一台虚拟机为我司的redis服务器,且该缓...

  • 牙齿问题带来的反思

    牙齿让我很沮丧,但是我更应该看到背后的原因。毕竟每件事情后面都藏着我们的思维认知和情绪,每次从一件事情中,学习到一...

  • 故障的反思

    生产故障,P1级别,从程序的角度看来不难我们底层的SDK包中的入参某个字段是枚举值,例如[0,1,2],调用方在调...

  • 2020-10-27

    诊断故障要有思路,很多故障报的故障码都不是故障问题所在,找出根源,解决问题…

  • 分布式存储系统的故障分类

    高可用的系统需要解决的是在不同故障情况下都保持较高的系统可用性,但是不同故障类型带来的问题复杂性不同,不可能使用一...

  • 自动包装机6大常见问题以及解决方法

    自动包装机给我们的生活带来了便利,但是却也给我们带来了不少的烦恼,这个烦恼就是包装机的故障问题,而跟让人烦恼的是有...

  • 自动包装机常见的六大问题,你需要了解一下。

    自动包装机给我们的生活带来了便利,但是却也给我们带来了不少的烦恼,这个烦恼就是包装机的故障问题,而跟让人烦恼的是有...

  • 分布式术语

    容错机制 FAILOVER:故障转移,故障出现时重试其他机器,用于读操作。重试会带来延迟。 FAILBACK: 故...

  • 使用Haproxy+Keepalived实现高可用的负载均衡

    尽管HAProxy非常稳定,但仍然无法规避操作系统故障、主机硬件故障、网络故障甚至断电带来的风险。所以必须对HAP...

  • 生产环境部署Springcloud微服务启动慢的问题排查

    今天带来一个真实案例,虽然不是什么故障,但是希望对大家有所帮助。 一、问题现象: 生产环境部署springclou...

网友评论

      本文标题:故障问题带来的反思

      本文链接:https://www.haomeiwen.com/subject/orjhjctx.html