美文网首页
运维告警等级详解

运维告警等级详解

作者: 运维行业研究家 | 来源:发表于2016-10-25 19:46 被阅读444次

互联网时代 IT 相关的衍生产品有很多,监控工具为其中的佼佼者。很多监控工具对于确保网站和应用的平稳运行做了非常多的工作,但是,对于告警产生到通知用户的过程,还有很大的改进空间。

在合理评估告警严重程度的基础上,确保通知合适的运维汪,对于快速有效解决事件至关重要。但是我们对告警等级的重要性以及如何设置告警等级来提高团队效率,还缺少必要的认识。针对该问题,以下几条快速指南可以供大家参考。

什么是告警等级?有什么重要性?

简单来说,告警等级是表征事件严重性的指标之一,取决于事件对用户体验以及网站或应用整体性能造成的负面影响的大小。

例如,导致网站崩溃的事件,被认为负面影响极大,告警等级也就较高;而一个Ping的问题有时不会很明显,被认为负面影响略小,告警等级也就较低。

告警等级的重要性体现在以下方面:

有助于减少和控制告警噪声的数量。

使得错误处理流程更为顺畅。

使你解决问题更有效率。

总而言之,根据告警等级不同,可以优先处理重要事件,避免干扰到不在职责范围内的无关人员。

怎样创建合适的团队告警等级规则?

确定告警等级的重要性,相信大家已经了解了,但如何创建一个适合整个团队事件严重程度的评估方法,是监控工具开发人员的棘手问题。

一般来说,评估告警等级过程需考虑以下3个方面:

1.严重性等级结构

2.团队结构

3.通信结构

1)严重性等级结构

严重性等级的主要目的是确保合适的人员能够知道问题,并按照严重程度来处理问题。一般来说,设置严重程度等级结构的最简单方法是根据商业价值来确定网站或应用的最关键部分。并且在团队中,并没有所谓的正确或错误的方式来判定严重性等级。要知道,重要的是了解团队如何划分具体的事件,并确保每个人都达成共识。

2)团队结构

清晰地认识团队结构并对告警进行有序分派,将提高整个团队的执行效率。为了更有序和有效的分派告警,我们应该注意几个问题:

告警处理需要涉及哪些人?

处理事件时,每个人的责任是什么?

告警要求在哪个环节通知哪些人?

3)通信结构

如果你不知道告警在团队结构内应该如何通信,那么建立通信结构将是创建严重性等级过程中最为困难的一环。

你可以这样考虑:

严重性等级结构:这个问题有多严重?

团队结构:这是谁的责任?

通信结构:如果问题发生,如何以及何时联系团队成员?

创建通信结构能将不同事件与团队中的不同角色联系起来,并根据时间紧迫度与错误频率添加更明确的操作。这样,可以确保通过恰当的渠道联系到合适的人员,且符合当前的情况。如果一个响应者不在线上,可通过告警升级机制确保团队中的其他成员得到通知。

根据团队结构,选择合适的通知渠道与阈值配置,意味着问题解决能更加高效,且不会牵涉到无关人员。


RIIL是国内领先的IT综合管理解决方案,通过IT资源综合监控、运维流程管理、3D数据中心管理三大模块帮助客户实现IT部门人财物的全面管理,提升IT服务质量以及运维管理绩效

相关文章

  • 运维告警等级详解

    互联网时代 IT 相关的衍生产品有很多,监控工具为其中的佼佼者。很多监控工具对于确保网站和应用的平稳运行做了非常多...

  • CODING DevOps 系列第六课:IT 运维之智能化告警实

    IT 运维告警现状 目前 IT 运维领域保证服务运行正常的主要方法是对相关运维指标进行实时监控,并根据经验设定一些...

  • 利用钉钉机器人发送告警信息

    现在越来越多的人开始使用钉钉,对于运维告警来说,除了传统的邮件告警之外,短信告警、企业微信告警、钉钉机器人告警等也...

  • zabbix微信 | 微信发送图文消息

    继添加微信告警之后,极大的方便运维人员查看告警信息。要知道,微信是可以发送图片的,如果某个监控项目发生故障,告警时...

  • Spark运行在Standalone模式下产生的临时目录的问题

    Spark运行在Standalone模式下产生的临时目录的问题 1.问题描述 收到运维线上告警。告警信息:文件系统...

  • 个人微信号发送zabbix告警信息

    之前使用邮件和短信发送zabbix告警信息,但告警信息无法实时查看或者无法发送,故障无法及时通知运维人员。 后来使...

  • Zabbix实现微信告警

    之前使用邮件和短信发送zabbix告警信息,但告警信息无法实时查看或者无法发送,故障无法及时通知运维人员。 后来使...

  • 系统运维告警阈值

    数据库连接数:大于1600,触发警告运行线程数:大于25,触发警告锁:MySQL InnoDB 行锁过多,inno...

  • 对于告警系统的运维,需要注意哪些点?

    告警系统作为运维部门的哨兵,对故障告警起到至关重要的作用,有时候几分钟的差距就会造成大量的损失。 1、所以告警系统...

  • 告警信息的传递方式

    IT系统在运维阶段,告警信息是否能够及时通知到运维管理人员是非常重要的。一般的告警事件能够通过邮件、短信方式进行报...

网友评论

      本文标题:运维告警等级详解

      本文链接:https://www.haomeiwen.com/subject/bxzruttx.html