美文网首页
2020.10.17故障分析与思考

2020.10.17故障分析与思考

作者: 花盆有话说 | 来源:发表于2020-10-30 17:09 被阅读0次

    故障回顾

    1)故障描述

    17日晚上,较多用户反馈无法进入直播课(17日直播同时在线人数5W)

    2)故障过程回顾

    时间 过程
    10.17 18:59 观看直播,重新登录进不了APP,ios,Android,web三端都有登录超时的现象
    10.17 19:05 集群扩容,问题没有解决
    10.17 19:35 升级SLB规格
    10.17 19:40 问题得到批量解决,还是存储少量请求问题

    故障思考

    系统

    现在说说这个问题引起的原因:
    我们之前做了一个多个云机房的方案,目的有几个:
    1、新的机房成本相对比较低,这是一个商务的方案
    2、实现异地多机房的灾备
    3、用户分流


    多云机房方案

    在9月底,我们切了5%的流量到新的集群SLB-1里面


    切换5%流量

    跑了两周之后,发现没有什么问题,我们准备放量到20%到集群中。
    在10.13的时候,我们将规则调整到20%。
    在10.17的时候,就发生了大量用户不可用的情况。
    原因就是在放量到20%到新集群里面,我们同时在线有5W人,20%的用户就是1W人将近1W多个连接。
    当时在建设SLB的时候,选用的规格比较小


    SLB规格

    只能支持5000个连接数,所以导致大量的用户连接不上SLB导致用户不可用。从监控上面看,很明显连接数不够用。


    连接数不足

    经过排查之后,升级了SLB规格,问题就这样解决了吗?然而并没有。
    有思路之后,排查起来就方便很多。流量经过SLB之后,到了ingress-controll,被ingress直接拒绝掉了。最简单的方式是,增加ingress-controll的数量。
    到这里问题就都解决了。

    人员与管理

    从人员上,思考下这个问题,这是一个天灾还是人祸,很明显是认为导致的。
    1、没有专人去不断分析与跟进这个项目,依赖过往经验。
    2、所有的讨论都是小范围的拍板
    3、没有规范的流程与风险意识

    相关文章

      网友评论

          本文标题:2020.10.17故障分析与思考

          本文链接:https://www.haomeiwen.com/subject/hgpzmktx.html