技术系统和在其之上的业务应用构成一个整体,如果技术系统与该业务应用直接相关,且与其他系统耦合度较低,我们称之为独立技术系统。其事故一般直接体现在业务层面,要么业务操作出错直接导致事故,要么技术系统出错间接导致业务运行出错引起事故。
如何降低第一类事故几率?
首先,业务应用的设计应有足够的鲁棒性,对错误的输入进行强制检查;
其次,业务应用的跟踪应有足够的可视性,对所有业务操作都应有反馈;
再次,业务应用的管理应有足够的透明性,对业务操作情况有整体追踪;
最后,减少模糊且易操作出错的业务步骤,无法规避的应提供明确指引。
如何降低第二类事故几率?
首先,承认技术故障不是偶发的意外事件,而是有规律可循的可控事件;
其次,集众人之长发掘苗头到事故的规律,将经验固化为故障发现指引;
再次,利用问题指引强化普通员工的能力,处理技术系统故障的小苗头;
最后,合理利用技术系统保持业务的均衡,避免单一技术错误引发事故。
提早发现技术系统的“偶发”故障,将问题消灭在初始阶段,是降低事故几率最有效的手段。
其他系统运维文章
如感兴趣,请与grt-dengqi@139.com联系。
网友评论