美文网首页
如何才能做到监控全覆盖?

如何才能做到监控全覆盖?

作者: 有点胖的瘦子 | 来源:发表于2022-06-18 07:00 被阅读0次

    都说70%的故障与变更有关,但是100%的故障与监控覆盖度有关!

    没有做到全面监控的后果

    发生故障后才发现,又被客户投诉,结果运维最后才知道,一检查才发现又有地方没有被告警覆盖到

    机器系统都挂了,运维还不知道,这领导能放过我吗?

    系统运行缓慢,行将崩溃,能否提前发现?否则,又一个锅!

    所以说,不能不做全监控。

    做全覆盖会有什么障碍

    毕竟不是第一天做运维监控,公司已经积累的这么机器,系统还有一大堆中间件,我不能一一吃透吧,也不可能全部都是事后弥补监控,所以说怎么才能做到事前做好监控配置。

    一般情况下对于常见组件,大家都有经验,搞过来比较容易,但是如果是行业组件就比较麻烦,最好能找到行业专业软件。

    如果是定制软件,一般情况下就只能遵循类似黄金指标的法则,先建设起来大的监控范围了,再慢慢细化。

    做全监控会有什么负面效果?

    对所有组件、系统、机器做监控还好说,最多指标多,看不过来,但是告警事无巨细都配置,那么肯定会发生告警泛滥。

    首先得做适当的监控告警,行业经验或者黄金指标都很好,其次对于告警压缩要给力,横向+纵向,先干掉一批再说,然后是基于CMDB的关系,再从时间角度压缩掉一批,最后可以依赖规则或者特定算法做进一步精简。

    系统已做全监控,还要注意哪些点?

    因为各种原因,告警会被临时撤下,结果产生了新的告警存在盲点。所以撤销告警后一定要做提醒,每天晚上对于告警覆盖度也要做统计,日日小心,才能确保没有问题!

    相关文章

      网友评论

          本文标题:如何才能做到监控全覆盖?

          本文链接:https://www.haomeiwen.com/subject/ttvcvrtx.html