一大早运维小白就跑到运维老鸟,一脸神秘的问道“大佬,什么是异常?”
老鸟:“咋了,运维运的魔怔了?"
小白:“不是,我在设置告警的时候,系统总是提示我输入异常的阈值,可是我哪知道什么是异常的阈值呀?是输入90%还是80%?”
老鸟:“那你怎么做的?"
小白:“我知道这是一个经验值,所以我也留意了告警标准库中的告警阈值建议,但是我继续想,这些阈值建议代表的异常有时什么?”
老鸟:“其实,告警标准库中的阈值都是公司之前翻过的事故总结出来的,也是我们自己真正认识到的异常,最开始我们几个老家伙是根据网上经验设置的,但是有的太低,还是会有事故,后来我们就根据实际的事故发生原因调整了阈值,就是你现在看到的。"
小白:“那有没有一开始设置的太高的...”
老鸟:“有呀,定期告警治理委员会会根据告警数据评估阈值是否太高,适当降低一下。"
小白:“这就说得通了”
老鸟:“其实还有一种方法,就是系统根据我们的历史数据自动推算当前的合理值,就是新上线的算法动态阈值,比较适合与周期性波峰波谷的场景,例如促销期间的告警"
小白:“嗯,平时好用的阈值,在促销期间就会产生异常,说明是我们之前的经验也是在特定场景下的....”
老鸟:“这么说也对,没有环境背景的说明,这个异常阈值也是空谈"
小白:“只是大部分情况下,背景都差不多,所以阈值也不太会失效”
老鸟:“没错”
网友评论