一、现在场景的思路
针对故障的定向分析
在监控报警发出后,人员查看告警时间对应的指标,日志,Trace,变更事件等信息,分析可能存在的异常,在这个时候,主要是依赖人员的经验进行分析。
人为的全面分析
做完定向分析后,为了以防万一,一般还得对系统做一次全面分析,最少要把关键指标看一遍,异常日志模型工具也得用一下。这其实挺费时间的。
二、存在的问题:
存在的问题:系统分析经验很难复制
首先是比较慢,毕竟要查看4类信息,还是去查询到,这个最少需要好几分钟的时间。
另外,虽然套路相同,工具也有,但是每个系统的情况不同,导致日志、指标、Trace都不样,所以对于一套系统的分析经验,很难复制到另一套系统上。
存在的问题:人员经验难以复制
对于某个系统,如果经常分析,人员能力确实可以提速,但是如果不是自己负责的系统,就很难有高速分析的效果,只能慢慢来。
存在的问题:历史经验与案例很难沉淀
故障发生不是你想发生就发生,得看缘分。这么好的故障案例,不留存成组织案例,太可惜了,但是人为排障往往就容易出现,解决完问题就万事大吉的情况,很少有人能够从组织资产角度进行沉淀与整理。
当然就算沉淀了,下次排障时能否及时运用也是一个挑战。
网友评论