美文网首页
2020.10.17故障分析与思考

2020.10.17故障分析与思考

作者: 花盆有话说 | 来源:发表于2020-10-30 17:09 被阅读0次

故障回顾

1)故障描述

17日晚上,较多用户反馈无法进入直播课(17日直播同时在线人数5W)

2)故障过程回顾

时间 过程
10.17 18:59 观看直播,重新登录进不了APP,ios,Android,web三端都有登录超时的现象
10.17 19:05 集群扩容,问题没有解决
10.17 19:35 升级SLB规格
10.17 19:40 问题得到批量解决,还是存储少量请求问题

故障思考

系统

现在说说这个问题引起的原因:
我们之前做了一个多个云机房的方案,目的有几个:
1、新的机房成本相对比较低,这是一个商务的方案
2、实现异地多机房的灾备
3、用户分流


多云机房方案

在9月底,我们切了5%的流量到新的集群SLB-1里面


切换5%流量

跑了两周之后,发现没有什么问题,我们准备放量到20%到集群中。
在10.13的时候,我们将规则调整到20%。
在10.17的时候,就发生了大量用户不可用的情况。
原因就是在放量到20%到新集群里面,我们同时在线有5W人,20%的用户就是1W人将近1W多个连接。
当时在建设SLB的时候,选用的规格比较小


SLB规格

只能支持5000个连接数,所以导致大量的用户连接不上SLB导致用户不可用。从监控上面看,很明显连接数不够用。


连接数不足

经过排查之后,升级了SLB规格,问题就这样解决了吗?然而并没有。
有思路之后,排查起来就方便很多。流量经过SLB之后,到了ingress-controll,被ingress直接拒绝掉了。最简单的方式是,增加ingress-controll的数量。
到这里问题就都解决了。

人员与管理

从人员上,思考下这个问题,这是一个天灾还是人祸,很明显是认为导致的。
1、没有专人去不断分析与跟进这个项目,依赖过往经验。
2、所有的讨论都是小范围的拍板
3、没有规范的流程与风险意识

相关文章

  • 2020.10.17故障分析与思考

    故障回顾 1)故障描述 17日晚上,较多用户反馈无法进入直播课(17日直播同时在线人数5W) 2)故障过程回顾 时...

  • 2020.10.24故障分析与思考

    前言 时隔一周,万万没有想到有除了一个严重的线上问题,10.24 晚上21点的时候,出现大量的用户请求超时,真是个...

  • PMP-项目管理的20钟方法

    1、FMEA和FTA分析 故障模式与影响分析(FMEA)和故障树分析(FTA)均是在可靠性工程中已广泛应用的分析技...

  • 六西格玛管理之20种六西格玛管理工具(详细版上)

    六西格玛管理工具之1— FMEA和FTA分析 故障模式与影响分析(FMEA)和故障树分析(FTA)均是在可靠性工程...

  • 架构设计读书笔记-高可用(二)- FEMA

    FMEA方法 FMEA(Failure mode and effects analysis,故障模式与影响分析),...

  • 汽车故障码的分析方法

    汽车故障码的分析 故障码分析就是在读取故障码的基础上,结合其他的检测结果对所读取的故障码进行比较分析从而做出故障判...

  • 架构师之路-FMEA

    FMEA(故障模式与影响分析)是一种在各行各业都广泛应用的可用性分析方法,通过对系统范围内潜在的故障模式加以分析,...

  • 汽车变速箱故障分析

    塔木德讲堂:车辆提速无力、锁挡故障分析与解决方案 标签:变速箱故障塔木德汽车俱乐部 故障现象:用户抱怨车子跑不起来...

  • 监护仪故障问题分析与处理(1)

    监护仪故障问题分析与处理(1) 监护仪屏幕不亮 故障现象 设备连接外电源,电池完好。开机后,监护仪屏幕不亮 故障分...

  • 2020.10.17三数灯谜分析

    农历:2020年09月01日20时27分寒露:2020/10/8 5:15:00立冬:2020/11/7 8:31...

网友评论

      本文标题:2020.10.17故障分析与思考

      本文链接:https://www.haomeiwen.com/subject/hgpzmktx.html