美文网首页
程序设计时的误告警问题

程序设计时的误告警问题

作者: 刘小白DOER | 来源:发表于2023-03-30 23:09 被阅读0次

    运维涉及到监控软件的设计和搭建,笔者在各个机房部署完传感器后,实现信号连通和测试,开发调试,最后部署成功。在长时间的运行中,笔者发现各个传感器传递的数据偶尔存在很大的偏差,会导致超过门限引发告警。

    具体的开发流程和传感器如下,温湿度传感器时模拟量,存在误告警问题。传感器因为型号、稳定度等问题,可能会导致某次输出数据漂变。那么程序设计时数据采集判断怎样才能有效避免数据漂变/波动呢,那么应该在传感器固定的情况下,怎么来解决这个问题呢,给下次程序设计提供一个思路。

1、持续周期或者持续时间

    笔者想到了what‘s up这个网络监控软件,基于ping来做设备在线/不在线检测,当出现ping中断时,此时软件默认只是颜色上的变化,然后第二、三次再检测中断时颜色变化加深,第四次才是告警声音。在存在网络波动、网络延时时,此方法多次判断确认,可以有效的解决监控软件误告警问题,避免频繁无效的告警提示。在传感器场景中,用于控制持续几个点异常才会发出告警,持续 1 个周期表示需要连续 2 个点异常,才会触发告警。或者按照业务逻辑,将周期数转为时间来进行判断。笔者觉得此方法是简单有效的。

2、动态阈值

    那么如果数据在边界波动呢?静态阈值告警是指用户根据业务经验和曲线形态,配置固定的阈值,此固定值存在本身检测场景的局限,需要人工根据业务经验不时调整告警阈值设置等。结合业务特性来学习指标数据的历史变化规律,在不需要用户设定阈值的情况下,智能地检测指标异常并发送告警。此方法较为复杂,笔者还没有想到怎么实施。

3、相对值和绝对值

    设置相对值(静态阈值)和绝对值(偏差),超过相对值时经过周期确认告警,然后再次告警是基于绝对值来判断,超过相对值\pm 绝对值时才考虑告警,此方法可以避免数据在边界波动,而且难度很比动态阈值要小。

相关文章

  • 如何解决InsecureRequestWarning警告

    【问题】 使用python2.7.10运营python接口测试脚本时,出现告警InsecureRequestWar...

  • 推荐一招:gcc如何忽略第三方库引发的告警

    问题提出 业务代码使用了google buffer以后,编译时会有大量告警,导致CI失败。告警如图: 问题解决 在...

  • Spark运行在Standalone模式下产生的临时目录的问题

    Spark运行在Standalone模式下产生的临时目录的问题 1.问题描述 收到运维线上告警。告警信息:文件系统...

  • SoapUI4 乱码解决-UTF8编码

    问题描述 groovy导入excel测试数据,添加告警信息时。返回json解析错误。 解析 request测试用例...

  • 告警模块代码的设计思路

    一、目标告警的方式支持邮件、短信等多种。当满足告警条件时,遍历所有的告警实现。 二、设计思路 定义一个接口,多个实...

  • 收到告警后如何快速定位问题

    收到告警消息后,如何快速定位问题 关联版本发布:如果是新版本发布后新产生的告警,就首先考虑告警与发布的内容之间的关...

  • 运维监控

    其实运维的监控,并仅仅是监控发现 -首先要发现 问题通知-然后告警通知处置-问题处置恢复-告警恢复预警-进而预警问...

  • zabbix微信 | 微信发送图文消息

    继添加微信告警之后,极大的方便运维人员查看告警信息。要知道,微信是可以发送图片的,如果某个监控项目发生故障,告警时...

  • kafka消息有效期设置

    问题描述: 昨天晚上,先收到kafka主机磁盘告警,然后收到kafka端口告警,三台kafka同时挂掉。 排查: ...

  • 时误

    秋花迟放误染春 暗香恰如旧精魂 今月难似前世月 奈何来处未相逢

网友评论

      本文标题:程序设计时的误告警问题

      本文链接:https://www.haomeiwen.com/subject/saicddtx.html