美文网首页
告警应该是对意外的布防

告警应该是对意外的布防

作者: 有点胖的瘦子 | 来源:发表于2022-07-02 06:55 被阅读0次

    我一直以为,告警配置应该越全面越好,不过现在觉得这里可能考虑的不够深入。

    问题+告警:4象限

    根据已知|未知,配置告警|不匹配值告警,画出4象限。

    一、如果是已知问题,那我应该重点在预防,或者一开始就消除隐患,重点不是在设置告警,不是在问题发生后,利用高机动能力去解决。告警配置后,应该不产生实际的告警。

    二、已知问题+未配置告警,除了问题责任在对已知问题的处理上。

    三、未知问题+未配置告警,这个确实是主要不布防点,要么通过事后的复盘弥补,要么直接用拿来主义把行业经验支持复制。

    四、未知问题+已配置告警,一般就是复制其他人的经验,重点是应该定期检查,无效问题应该撤销告警

    从以上4点能够看出,主要产生告警的应该是未知问题所导致的告警,也就是说告警配置重点应该是对于意外问题的布防。

    随着企业经验的增加,应该是更多未知问题转化成已知问题,并且从根因上进行处理,告警配置量增加,但是告警数量开始变少。

    已知问题也需要布防,不过实际产生的告警应该越来越少,这个指标可以用来衡量对于问题根本原因处理的效果。


    注意重大前提发生变化

    另外要注意,以上是以大环境不变化的情况下做考虑,如果已知问题的前提条件发生改变,则已知问题可能会产生新的告警。

    例如:已经对负载100%的情况做好了处置,告警发生率在10%以下,但是负载率今天超过300%,那么告警发生率可能就会全面上升,之前的稳定防线可能会崩塌。

    相关文章

      网友评论

          本文标题:告警应该是对意外的布防

          本文链接:https://www.haomeiwen.com/subject/yohqbrtx.html