一件事没有责任人,它就不可能做好。很多事故就是没有明确的责任人诱发的。
今天,在去医院的路上,接到微信语音,说产品不可使用,根据现场的描述第一反应数据库估计出问题。由于现场的不熟练,取个日志,折腾了不少时间,最终通过日志分析数据文件使用饱和。随后把增数据文件的指令发给项目,执行指令后系统恢复。
出现问题,少不了编写故障报告,又是末端研发的事情,我们通过分析,定位到原因是数据文件已经预警了一段时间,怎么没人发现。
这种原因或者类似的原因,已经不是一两次,为什么会这样,要预防这种原因导致故障,其实也不难,就是每段时间巡检相关的指标数据。在排查问题还出现个小插曲,研发项目差点怒起来,互相推脱责任,其实争执就是错的,谁是项目负责人,责任就是谁的,不管是什么原因,你就是第一责任人,这就是格局。
这种巡检指南,我们已经发布到各项目,那为啥这份指南上的要求做的事项最终不了了之呢。个人通过这几年来的接触,给我的感受是,部分人员内心想的是出故障有人处理,有人写报告,我就是个传话筒,责任都是别人的。
处理故障写报告,常规的做法都是谁排查谁编写,这样的话,每次出故障时对项目负责人来说,就传话,拷贝信息,对外沟通,然后就坐等结果,加上最终的责任都是研发的,与项目无关。
我就在想,是不是倒过来,让项目真正扛起来,研发协助,最终责任归属就是项目。再者我们追究故障原因时,是不是也要追究一些可以避免故障发生的日常措施为啥没做,我觉得后面这个目前是重点,不去追究该做的却没做的事项,没人会把它当一回事。
网友评论