Zabbix是大家喜闻乐见的监控工具,可很多朋友也饱受告警设置及报警风暴之苦。我曾经有过几十万台服务器的运维经验,在这些方面也有较多经验,本文侧重分析Zabbix告警的相关问题,并给出一种快速解决方案:
邮件报警配置复杂,多了没人看;
短信报警流程复杂,短信容易被延迟或漏发;
电话报警配置太麻烦,需要二次开发;
报警风暴令人苦恼不堪。
1、什么是Zabbix?
Zabbix是一个开源、高度集成的监控解决方案。以图形化展示和操作界面,提供了针对各种IT系统的系统参数、网络参数的分布式监控及告警,让系统管理员能够快速感知、定位、解决IT系统问题。
虽然只支持普通的报警方式。
2、为什么需要Zabbix?
首先,业务规模稍微大一些的公司,都需要监控。 当公司从一个几人、十几人的小公司,发展成一个几百上千人规模的中、大型公司,公司的业务规模也处于不断增长,服务器从几台发展到几百几千台。这个时候,IT系统出现故障的几率就会大大的增大,影响程度也更加严重。
可能只是几分钟的宕机,就会给公司带来几十万、几百万的损失。
如果这个时候,领导问“为何某个服务不可用、为何系统会出现故障”,而你却不能及时确定故障的根源并提供解决方案时,工作一定会受到领导的质疑和挑战。
而监控系统,就是为了解决这些问题。
它能够让运维人员快速知晓系统的运行状况,并在出现问题时甚至在出现问题前,及时感知到问题的存在,通过提前处理或实施预案,解决或避免问题的出现,并且尽快进行处理。
其次,无论是在安装还是在使用上,Zabbix都是一款远胜其他同类产品的监控工具:
安装与配置非常简单,学习成本低;
支持多语言(包括中文);
免费开源,维护志愿者众多;
具有node、proxy两种模式,非常适合构建分布式监控系统;
企业实现自动化运维的必然之选:能自动发现服务器和网络设备、自动注册主机、自动添加模板及分组;
支持多种监控方式,适应复杂企业IT环境。
3、 Zabbix 真的那么受关注?
根据“百度指数”中Zabbix、Falcon和Nagios最近半年的指数趋势(下图),Zabbix的受关注程度,一直处于非常稳定并且长期持续的状态。
这里写图片描述4、 Zabbix告警配置很烦人?
随机选择今年1月份的一周(1.04-1.10),如下图。
这里写图片描述
从这个数据来看,确实,Zabbix报警依然困扰着大家(当然,Zabbix相关中文文档的翻译需求,也是类似)。
而这些,也正是企业选用Zabbix作为监控工具时,可能遇到的问题:
Zabbix的告警配置相当复杂,并且没有详尽的中文翻译资料,以帮助解决这个问题。
5、如何解决Zabbix告警配置的问题?
Zabbix监控再好,也必须能在最快的时间将故障信息推送给对应的人,才能真正将监控的价值最大化。
但可惜的是,Zabbix的报警机制过于复杂,难以与公司的实际场景结合,达成“优化整个团队的故障监控和处理效率”的目的。
告警通道配置太繁琐
邮件报警:如需配置邮件报警,就得在Zabbix里配置邮件调用接口。并且Zabbix邮件报警经常发生延迟(Zabbix自身延迟+邮件服务商延迟),更悲催的是,报警邮件往往没人看。
仅凭这一点,想要“解放运维人员、不再24小时盯着监控大屏幕”,就已基本梦碎。
短信报警:如需配置短信报警,就需要向短信服务商购买短信服务。
签订合同、定期购买短信数量、设定短信模板、在Zabbix配置短信调用接口; 经常从短信服务商那边索取回执报告并作对比,以避免被“糊弄”; 需配置多个短信服务商,以避免某个短信服务商短信延迟或漏发。
电话报警:电话报警,是为了保证在深夜,把运维人员弄醒,及时解决紧急故障。比起短信,电话的提醒效果肯定更好。但电话报警更加繁琐,而且往往需要二次开发。
配置短信的痛还没消,你真的还要再找一次虐?
微信报警:配置微信报警,需要申请开通微信的相关服务,然后排期进行针对性开发。
首先,微信的订阅号、服务号、企业号,其消息推送限制、消息内容限制、认证前后的人数限制都是不同的 ,真的能分的那么清楚?
其次,如果发生报警风暴,确定你的小心脏接受得了微信里突然多出来的成百上千条报警提示?
2)告警风暴的痛,Zabbix不够懂!
Zabbix的报警配置很复杂,并且没有中文文档可供参考;
Zabbix的报警合并机制不够高效,不符合实际运维场景。
可是,大部分运维人员只能硬着头皮上,配一个User组、一个Trigger就了事。
无论是邮件报警、短信报警或微信报警,都会存在告警风暴的问题:如果发现类似断网等大面积故障,而且没有告警保护和收敛机制的话。
邮件被充爆、手机收件箱被报警短信爆满、手机连续响1个小时。
批量删除?那也要拖滚动条拖个几十秒啊!这种痛,复杂的Zabbix,真的不够懂。
其实,大家的要求很简单:只是想要一个足够友好、简单易懂、支持自定义又有默认设置的人性化报警机制。
3)只想团队高效协作,别老是全体出动!
可否实现一个报警升级机制?而不是一旦产生报警,立即全员通知。我们真的没有那么闲啊:
短信和电话,真的也是要付费的。 普通、通知级别的报警,让刚来的运维小白看看可否? 严重级别和灾难级别的报警,先发给一级,一级响应不及再升级,而不是直接“捅给”老大好不?
灵犀,负责解决您的这些问题!
灵犀(linkedsee)旨在成为客户一站式混合IT运营管理专家,核心成员来自原百度系统部。创始人@朱品燕同学曾致力于百度多年,其离职网文《IT狗,离开百度,你还是什么?》曾一度引起轰动。
灵犀,负责解决您的这些问题!
快速高效接入:10分钟内完成接入,瞬间拥有四大通道、多个主备服务商。 消灭告警风暴:默认恢复自动合并、相同报警自动合并,支持自定义合并。 专人客服值守:普通级别专人轮流值班,严重级别轮循升级通知、处理。
不仅仅这样,灵犀还可:
完美对接工单系统,让Zabbix告警不再石沉大海、无人跟进。
支持Open-falcon及其他自定义监控。
想看看灵犀的真容?
灵活的告警触发策略设定。
这里写图片描述丰富的事件处理及统计功能。
这里写图片描述方便的监控值班功能。
这里写图片描述看到这里,是不是有些心动,迫不及待的想试试呢。点击 灵犀注册,立即体验。
网友评论