故障一来,领导也来了
故障以来,最怕的不是排查困难,最怕的是领导突然问我,“听说X系统有问题,什么情况”
😔,我也不知道呀,只好说“我马上去了解一下”
好不容易跟系统管理员了解完前因后果后,赶紧跑去跟领导汇报,没想到领导又问“那Y系统的情况如何”,😔,刚才没有问,这不是赶紧回来汇报嘛,之好说“这个还不清楚,我去了解一下”,你说多尴尬,关键是也不可能随时随地的了解那么多系统的状态,也不知道这故障啥时候来 ╮(╯▽╰)╭
每天主动汇报
研究了一下对策,通过定期汇报应该是比较好的解决方案。
计划是每天早上先把所有系统的状态拉一遍,然后给出结果,ok 还是 不OK。然后主动向领导汇报,“早上检查过了所有系统,都OK”。
真的不OK,也汇报,主动发现问题,还不表扬我?😉
汇报结果,不是汇报细节
其实领导想看的是结果,OK 或者 不OK。在我们巡检的时候,有一大堆细节,这个指标异常,那个有点高了,领导不想听这个,他需要的数据+我们的判断得出的结论。
汇报要全面,不要遗漏
现在负责的系统也听多的,虽然又不重要的系统,但是既然是主动巡检,就要都覆盖到。一旦有了遗漏,这个主动汇报的质量就有问题了,你说OK,但是里面有部分不OK的系统,这以后谁还敢信你的汇报呀。
对大局的展示
大局很重要,比方说现在用户活跃低,那么系统压力肯定不大,所以也不太可能出现大问题。如果现在是大促,用户流量基层,那么在未来的时间内大概率会有一些严重问题。所以还得告诉领导,现在的整体情况是什么样子。一般通过流量数据来表现服务的压力就行,例如在线人员是5000,比平时多15%,那么就是正常的,但是如果是20000,比平时多300%,那么领导会第一时间和你在一线盯着系统。
网友评论