美文网首页
关于自动化辅助故障分析的思路

关于自动化辅助故障分析的思路

作者: 有点胖的瘦子 | 来源:发表于2022-06-24 07:12 被阅读0次

    一、现在场景的思路

    针对故障的定向分析

    在监控报警发出后,人员查看告警时间对应的指标,日志,Trace,变更事件等信息,分析可能存在的异常,在这个时候,主要是依赖人员的经验进行分析。

    人为的全面分析

    做完定向分析后,为了以防万一,一般还得对系统做一次全面分析,最少要把关键指标看一遍,异常日志模型工具也得用一下。这其实挺费时间的。

    二、存在的问题:

    存在的问题:系统分析经验很难复制

    首先是比较慢,毕竟要查看4类信息,还是去查询到,这个最少需要好几分钟的时间。

    另外,虽然套路相同,工具也有,但是每个系统的情况不同,导致日志、指标、Trace都不样,所以对于一套系统的分析经验,很难复制到另一套系统上。

    存在的问题:人员经验难以复制

    对于某个系统,如果经常分析,人员能力确实可以提速,但是如果不是自己负责的系统,就很难有高速分析的效果,只能慢慢来。

    存在的问题:历史经验与案例很难沉淀

    故障发生不是你想发生就发生,得看缘分。这么好的故障案例,不留存成组织案例,太可惜了,但是人为排障往往就容易出现,解决完问题就万事大吉的情况,很少有人能够从组织资产角度进行沉淀与整理。

    当然就算沉淀了,下次排障时能否及时运用也是一个挑战。

    相关文章

      网友评论

          本文标题:关于自动化辅助故障分析的思路

          本文链接:https://www.haomeiwen.com/subject/aqmpvrtx.html