告警的自下而上和上而下

作者: 有点胖的瘦子 | 来源:发表于2022-07-05 06:35 被阅读0次

监控系统中的告警思路，可以分为2路，一个是自下而上的告警处理，一个是自上而下的告警部署。

整个过程是从底层收集数据和第三方告警，然后经过实时流处理，根据设定的告警规则，产生告警，最终送到到用户手上。

这要求数据全、处理快、提供给人的信息准。

从这个角度看，广泛的对接第三方采集数据源、第三方告警产生源都是对数据全的努力。

在类似Flink这样的实时流处理技术，则是解决海量数据下的处理效率问题。

最终信息是要给人看的，并且得让人知道发生了什么，这部分就是告警压缩、告警收敛、告警通知的领域。

告警数据收集多，但是却不全，这并不矛盾。因为数量多可能能是因为实例多，但是要想全，则需要做到完整的分类及覆盖。

对所有监控对象要完整且及时的注册是CMDB在这个目标下的职责。

有了CMDB的监控对象注册，还要对不同类型的对象设定理论上完整的监控清单，理论上要做到360°无死角，这就是“上”

根据实际情况，可能无法所有全对象全监控指标，所以在不同场景下有不同的监控策略，例如交易高峰期间，降低监控的频率。

企业运维部门，需要一边规划监控策略，一遍一步一步落地监控覆盖访问。

同时，对于经常发生问题（产生告警）的，需要从根因解决，而不是只加强反应速度，徒增熟练的无能。

也不能只是根据发生事故弥补监控体系，这样的监控体系，是无法形成体系化的监控覆盖网的。

网友评论

本文标题：告警的自下而上和上而下

本文链接：https://www.haomeiwen.com/subject/ricdbrtx.html

告警的自下而上和上而下