故障回顾
1)故障描述
17日晚上,较多用户反馈无法进入直播课(17日直播同时在线人数5W)
2)故障过程回顾
时间 | 过程 |
---|---|
10.17 18:59 | 观看直播,重新登录进不了APP,ios,Android,web三端都有登录超时的现象 |
10.17 19:05 | 集群扩容,问题没有解决 |
10.17 19:35 | 升级SLB规格 |
10.17 19:40 | 问题得到批量解决,还是存储少量请求问题 |
故障思考
系统
现在说说这个问题引起的原因:
我们之前做了一个多个云机房的方案,目的有几个:
1、新的机房成本相对比较低,这是一个商务的方案
2、实现异地多机房的灾备
3、用户分流
多云机房方案
在9月底,我们切了5%的流量到新的集群SLB-1里面
切换5%流量
跑了两周之后,发现没有什么问题,我们准备放量到20%到集群中。
在10.13的时候,我们将规则调整到20%。
在10.17的时候,就发生了大量用户不可用的情况。
原因就是在放量到20%到新集群里面,我们同时在线有5W人,20%的用户就是1W人将近1W多个连接。
当时在建设SLB的时候,选用的规格比较小
SLB规格
只能支持5000个连接数,所以导致大量的用户连接不上SLB导致用户不可用。从监控上面看,很明显连接数不够用。
连接数不足
经过排查之后,升级了SLB规格,问题就这样解决了吗?然而并没有。
有思路之后,排查起来就方便很多。流量经过SLB之后,到了ingress-controll,被ingress直接拒绝掉了。最简单的方式是,增加ingress-controll的数量。
到这里问题就都解决了。
人员与管理
从人员上,思考下这个问题,这是一个天灾还是人祸,很明显是认为导致的。
1、没有专人去不断分析与跟进这个项目,依赖过往经验。
2、所有的讨论都是小范围的拍板
3、没有规范的流程与风险意识
网友评论