故障在所难免,所以对于故障处理得有些思路
最常见的故障发生时
原则是先止损,在修复根因。就像先止血,再送医院一样。
先看一下问题明显标志,问题对应的是不是有应急预案,如果有就先执行。
如果遇到情况不明,先执行全面检查脚本,从整体上进行一次初步排查。
与此同时:利用监控系统回溯能力回到故障发生的时间,查看当时的日志、指标、告警、链路等一系列信息。
如果找到出血点,则(如有)快速执行恢复脚本
问题解决完毕后,记得通知相关人(尤其是领导)
如果问题很简单,通过移动端的快速执行恢复脚本,可以更快恢复
事前准备
不能老是在解决问题上下功夫,这不成了“熟练的无能”嘛,得从预防阶段做努力。
从上而下的梳理所有监控对象和监控要点(规范),然后逐步落地监控与告警,完善监控覆盖度。
多了解业务周期,对于未来要做的临时性重大业务活动,做好筹备工作,例如大促活动。
对于日常周期性的重大业务活动,也要做好准备工作,该扩容扩容,该锻炼身体就锻炼身体
做好重大变量的观察工作,例如股市每日交易量呈快速上升趋势,系统负载肯定大幅度上升,这时候就可能处于故障多发阶段,做好准备。
事后总结
总结已发生的事故,针对性补充监控与告警
从发生的事故深挖(5why分析法),找到深入原因,思考整体是否存在盲区(盲维),或者只是覆盖进度不足,或者是落地不充分。
网友评论