监控系统中的告警思路,可以分为2路,一个是自下而上的告警处理,一个是自上而下的告警部署。
自下而上的告警处理
整个过程是从底层收集数据和第三方告警,然后经过实时流处理,根据设定的告警规则,产生告警,最终送到到用户手上。
这要求数据全、处理快、提供给人的信息准。
从这个角度看,广泛的对接第三方采集数据源、第三方告警产生源都是对数据全的努力。
在类似Flink这样的实时流处理技术,则是解决海量数据下的处理效率问题。
最终信息是要给人看的,并且得让人知道发生了什么,这部分就是告警压缩、告警收敛、告警通知的领域。
自上而下的告警部署
告警数据收集多,但是却不全,这并不矛盾。因为数量多可能能是因为实例多,但是要想全,则需要做到完整的分类及覆盖。
对所有监控对象要完整且及时的注册是CMDB在这个目标下的职责。
有了CMDB的监控对象注册,还要对不同类型的对象设定理论上完整的监控清单,理论上要做到360°无死角,这就是“上”
根据实际情况,可能无法所有全对象全监控指标,所以在不同场景下有不同的监控策略,例如交易高峰期间,降低监控的频率。
企业运维部门,需要一边规划监控策略,一遍一步一步落地监控覆盖访问。
同时,对于经常发生问题(产生告警)的,需要从根因解决,而不是只加强反应速度,徒增熟练的无能。
也不能只是根据发生事故弥补监控体系,这样的监控体系,是无法形成体系化的监控覆盖网的。
网友评论