一、总体流程
1、故障突然发生
2、评估影响范围并进行通报
3、处理故障
(1) 启动应急方案处理
(2) 问题彻底处理
4、安抚客户
5、复盘总结
二、故障突然发生
由于我们没有故障预知的能力,或者说没有相应的措施去监控故障的发生,或者无法监控故障的发生,包括业务故障(资源不可使用)和系统故障(系统服务不能用等)。
三、评估故障发生的影响范围进行通报
故障发生了,涉及到哪些资源层面不能正常运行,以及相关联的是否也受到影响。最后要把影响范围和发生故障的原因理清楚通报给领导。
四、故障处理
故障比较重大,影响范围广,损失严重的话更加需要重视了。首先最重要的是应急处理,一定要有应急方案,应急方案来源于影响范围。通过应急方案把损失降到最低。彻底解决方案一般没有那么快出来的,要比较长的时间。同时需要整理出被影响的这部分资源的量,有多少。从而应急方案。
五、安抚用户
告知用户我们当前遇到的问题,以及处理进度,要怎么解决用户的问题,安抚用户,以及做好最坏打算之类的。
六、包括资源规范化、商务人员和上游沟通,并把沟通结果通知到后端支撑人员、盘查是否还有相同的资源也有可能收到影响是否存在相同的安全隐患,随时可能爆发故障。
网友评论