美文网首页系统运维专家大数据运维及安全
灵犀:企业监控为什么光有Zabbix是不够的?

灵犀:企业监控为什么光有Zabbix是不够的?

作者: linkedsee_99372 | 来源:发表于2016-06-12 18:24 被阅读0次

    Zabbix是大家喜闻乐见的监控工具,可很多朋友也饱受告警设置及报警风暴之苦。我曾经有过几十万台服务器的运维经验,在这些方面也有较多经验,本文侧重分析Zabbix告警的相关问题,并给出一种快速解决方案:

    邮件报警配置复杂,多了没人看;
    短信报警流程复杂,短信容易被延迟或漏发;
    电话报警配置太麻烦,需要二次开发;
    报警风暴令人苦恼不堪。

    1、什么是Zabbix?

    Zabbix是一个开源、高度集成的监控解决方案。以图形化展示和操作界面,提供了针对各种IT系统的系统参数、网络参数的分布式监控及告警,让系统管理员能够快速感知、定位、解决IT系统问题。

    虽然只支持普通的报警方式。

    2、为什么需要Zabbix?

    首先,业务规模稍微大一些的公司,都需要监控。 当公司从一个几人、十几人的小公司,发展成一个几百上千人规模的中、大型公司,公司的业务规模也处于不断增长,服务器从几台发展到几百几千台。这个时候,IT系统出现故障的几率就会大大的增大,影响程度也更加严重。

    可能只是几分钟的宕机,就会给公司带来几十万、几百万的损失。

    如果这个时候,领导问“为何某个服务不可用、为何系统会出现故障”,而你却不能及时确定故障的根源并提供解决方案时,工作一定会受到领导的质疑和挑战。

    而监控系统,就是为了解决这些问题。

    它能够让运维人员快速知晓系统的运行状况,并在出现问题时甚至在出现问题前,及时感知到问题的存在,通过提前处理或实施预案,解决或避免问题的出现,并且尽快进行处理。

    其次,无论是在安装还是在使用上,Zabbix都是一款远胜其他同类产品的监控工具:

    安装与配置非常简单,学习成本低;

    支持多语言(包括中文);

    免费开源,维护志愿者众多;

    具有node、proxy两种模式,非常适合构建分布式监控系统;

    企业实现自动化运维的必然之选:能自动发现服务器和网络设备、自动注册主机、自动添加模板及分组;

    支持多种监控方式,适应复杂企业IT环境。

    3、 Zabbix 真的那么受关注?

    根据“百度指数”中Zabbix、Falcon和Nagios最近半年的指数趋势(下图),Zabbix的受关注程度,一直处于非常稳定并且长期持续的状态。

    这里写图片描述

    4、 Zabbix告警配置很烦人?

    随机选择今年1月份的一周(1.04-1.10),如下图。


    这里写图片描述

    从这个数据来看,确实,Zabbix报警依然困扰着大家(当然,Zabbix相关中文文档的翻译需求,也是类似)。

    而这些,也正是企业选用Zabbix作为监控工具时,可能遇到的问题:
    Zabbix的告警配置相当复杂,并且没有详尽的中文翻译资料,以帮助解决这个问题。

    5、如何解决Zabbix告警配置的问题?

    Zabbix监控再好,也必须能在最快的时间将故障信息推送给对应的人,才能真正将监控的价值最大化。
    但可惜的是,Zabbix的报警机制过于复杂,难以与公司的实际场景结合,达成“优化整个团队的故障监控和处理效率”的目的。
    告警通道配置太繁琐

    邮件报警:如需配置邮件报警,就得在Zabbix里配置邮件调用接口。并且Zabbix邮件报警经常发生延迟(Zabbix自身延迟+邮件服务商延迟),更悲催的是,报警邮件往往没人看。

    仅凭这一点,想要“解放运维人员、不再24小时盯着监控大屏幕”,就已基本梦碎。

    短信报警:如需配置短信报警,就需要向短信服务商购买短信服务。

    签订合同、定期购买短信数量、设定短信模板、在Zabbix配置短信调用接口; 经常从短信服务商那边索取回执报告并作对比,以避免被“糊弄”; 需配置多个短信服务商,以避免某个短信服务商短信延迟或漏发。

    电话报警:电话报警,是为了保证在深夜,把运维人员弄醒,及时解决紧急故障。比起短信,电话的提醒效果肯定更好。但电话报警更加繁琐,而且往往需要二次开发。

    配置短信的痛还没消,你真的还要再找一次虐?

    微信报警:配置微信报警,需要申请开通微信的相关服务,然后排期进行针对性开发。

    首先,微信的订阅号、服务号、企业号,其消息推送限制、消息内容限制、认证前后的人数限制都是不同的 ,真的能分的那么清楚?

    其次,如果发生报警风暴,确定你的小心脏接受得了微信里突然多出来的成百上千条报警提示?

    2)告警风暴的痛,Zabbix不够懂!

    Zabbix的报警配置很复杂,并且没有中文文档可供参考;

    Zabbix的报警合并机制不够高效,不符合实际运维场景。

    可是,大部分运维人员只能硬着头皮上,配一个User组、一个Trigger就了事。

    无论是邮件报警、短信报警或微信报警,都会存在告警风暴的问题:如果发现类似断网等大面积故障,而且没有告警保护和收敛机制的话。

    邮件被充爆、手机收件箱被报警短信爆满、手机连续响1个小时。

    批量删除?那也要拖滚动条拖个几十秒啊!这种痛,复杂的Zabbix,真的不够懂。

    其实,大家的要求很简单:只是想要一个足够友好、简单易懂、支持自定义又有默认设置的人性化报警机制。

    3)只想团队高效协作,别老是全体出动!

    可否实现一个报警升级机制?而不是一旦产生报警,立即全员通知。我们真的没有那么闲啊:

    短信和电话,真的也是要付费的。 普通、通知级别的报警,让刚来的运维小白看看可否? 严重级别和灾难级别的报警,先发给一级,一级响应不及再升级,而不是直接“捅给”老大好不?
    灵犀,负责解决您的这些问题!

    灵犀(linkedsee)旨在成为客户一站式混合IT运营管理专家,核心成员来自原百度系统部。创始人@朱品燕同学曾致力于百度多年,其离职网文《IT狗,离开百度,你还是什么?》曾一度引起轰动。

    灵犀,负责解决您的这些问题!

    快速高效接入:10分钟内完成接入,瞬间拥有四大通道、多个主备服务商。 消灭告警风暴:默认恢复自动合并、相同报警自动合并,支持自定义合并。 专人客服值守:普通级别专人轮流值班,严重级别轮循升级通知、处理。

    不仅仅这样,灵犀还可:

    完美对接工单系统,让Zabbix告警不再石沉大海、无人跟进。
    支持Open-falcon及其他自定义监控。

    想看看灵犀的真容?

    灵活的告警触发策略设定。

    这里写图片描述

    丰富的事件处理及统计功能。

    这里写图片描述

    方便的监控值班功能。

    这里写图片描述

    看到这里,是不是有些心动,迫不及待的想试试呢。点击 灵犀注册,立即体验。

    相关文章

      网友评论

        本文标题: 灵犀:企业监控为什么光有Zabbix是不够的?

        本文链接:https://www.haomeiwen.com/subject/odoedttx.html