美文网首页
故障处置的基本思路

故障处置的基本思路

作者: 有点胖的瘦子 | 来源:发表于2022-07-10 08:13 被阅读0次

故障在所难免,所以对于故障处理得有些思路

最常见的故障发生时

原则是先止损,在修复根因。就像先止血,再送医院一样。

先看一下问题明显标志,问题对应的是不是有应急预案,如果有就先执行。

如果遇到情况不明,先执行全面检查脚本,从整体上进行一次初步排查。

与此同时:利用监控系统回溯能力回到故障发生的时间,查看当时的日志、指标、告警、链路等一系列信息。

如果找到出血点,则(如有)快速执行恢复脚本

问题解决完毕后,记得通知相关人(尤其是领导)

如果问题很简单,通过移动端的快速执行恢复脚本,可以更快恢复

事前准备

不能老是在解决问题上下功夫,这不成了“熟练的无能”嘛,得从预防阶段做努力。

从上而下的梳理所有监控对象和监控要点(规范),然后逐步落地监控与告警,完善监控覆盖度

多了解业务周期,对于未来要做的临时性重大业务活动,做好筹备工作,例如大促活动。

对于日常周期性的重大业务活动,也要做好准备工作,该扩容扩容,该锻炼身体就锻炼身体

做好重大变量的观察工作,例如股市每日交易量呈快速上升趋势,系统负载肯定大幅度上升,这时候就可能处于故障多发阶段,做好准备。

事后总结

总结已发生的事故,针对性补充监控与告警

从发生的事故深挖(5why分析法),找到深入原因,思考整体是否存在盲区(盲维),或者只是覆盖进度不足,或者是落地不充分。

相关文章

  • 故障处置的基本思路

    故障在所难免,所以对于故障处理得有些思路 最常见的故障发生时 原则是先止损,在修复根因。就像先止血,再送医院一样。...

  • 迎检

    今天迎接了中心的大练兵检查 主要内容是站台门故障处置和车站火灾应急处置 站台门故障场景较为简单,设置了单个门常开,...

  • 职业||故障处置的思考

    前几天跟一个前同事聊天,谈到了他团队遇到的一次境况。具体是公司产品在项目实施过程中,经过现场配置测试,发现了一个B...

  • 蛋和鸡,就是这么难

    每日的常规工作,穿插了一个紧急处置的故障,有点感觉穿越回很久之前的工作之中。但是从处置紧急事务的过程中,是有感受到...

  • 路漫漫其修远兮

    我的工作是一名动车组随车机械师,我的工作职责就是处置动车组运行途中突发的故障。事情要从几天前单位组织的一场应急故障...

  • 中国的"萨利机长",川航故障高危状态下备降成都,点赞!

    在事件刚发生,具体故障情况和处置过程不清楚不好说。 但是大概情况是可以想象的: A一定出现了的情况:爆破性释压、紧...

  • 近期面试回顾

    6月底离职了,在上家公司期间经历了各种各样的线上故障,处置过各种各样的问题,从刚开始的掉头发到后面的游刃有余。这三...

  • 知识补给:接触网

    疑问:1.接触网都有什么构成?2.接触网你传递直流电还是交流电?如果是直流怎么给机车供电?3.弓网故障处置程序。 ...

  • 序列信息转ID实战

    基本思路

  • 法律上怎么区分偷和骗

    法律怎么区分偷和骗?偷就是拥有处置权的人被迫转移处置权,骗就是拥有处置权的人自愿转移处置权。比如有人在你不知情的情...

网友评论

      本文标题:故障处置的基本思路

      本文链接:https://www.haomeiwen.com/subject/qkambrtx.html