今天阅读了一篇文章关于安全生产系统稳定性建设的内容,讲解的很有道理,也和笔者的实践贴合。从事前的故障预防,事中的应急处置到事后的复盘改进方面逐步分析,最后综合分析得出:事前要有风险意识,事中要及时止损,事后查漏补缺构建风险自愈的能力。
下面时笔者使用思维导图做的文章学习笔记。

笔者结合到实践,从其中一个小点来解读文章-怎么识别到系统的单点隐患,并做好应急处置。高可靠性的系统不会希望有单点故障造成整体故障的情形,冗余的方式增加多个相同机能的部件,只要这些部件没有同时失效,系统(或至少部分系统)仍可运作,这会让可靠度提高,不过也增加成本和某些设计难度。那么冗余是稳定性保障最核心的手段!
怎么识别冗余和单点呢?笔者以为冗余就是并行部分,单点就是串行部分。为了增加系统可靠性,就需要增加并行部分,减少串行部分。总的来说,单点分为三大部分:硬件、软件以及控制部分。硬件是并行部分的物理配置,这个直接选择1+1等模式就直接解决,现在的双路由或者双总线就是这样配置的。软件可以跟随物理硬件一起配置,来实现功能的多重冗余。控制部分往往是单点,在系统构建时因为其使用率低、在线时间短,比如系统的DBMS配置服务器,只作为设备配置更新以及分发,不参与到实际的运行中。控制部分这个单点对于系统稳定性来说,短期往往不那么重要,但是要做好长期故障的应急,冷备份是一个很好的方法。
网友评论