前几天,家住北京市朝阳区的程序员诸葛建国非常郁闷,他突然接到客户电话,说公司网站没法正常工作了,登上服务器一看,他大吃了一惊——服务器的硬盘满了!!
当时诸葛建国真是怒从心头起,恶向胆边生,马上就想找cloudera的客服开喷。这服务器都用了JDT 来监控各种服务的运行状态了,怎么硬盘满了没有报警?cloudera的agent平时对资源都是锱铢必较,欲求不满,一有风吹草动就报警,怎么硬盘满了反而视而不见,装聋作哑?
在cloudera manager中查看了一番之后发现,cloudera的agent只关心自己的目录,对主机里的其他目录则麻木不仁,正所谓,各人自扫门前雪,莫管他人瓦上霜!真是人心不古,世风日下。
如果想在cloudera集群中监控其他硬盘,则需要利用cloudera提供的触发器。在主机上找到图表库,下面有现成的一些图表,这样轻轻松松就找到了想监视的硬盘
1.PNG
在图表上点击齿轮,把它保存到仪表盘,然后点击创建触发器
3.PNG
在这编辑页面稍作修改,就可以作为触发器了
4.PNG
IF (select capacity_used, capacity where hostId=$HOSTID and mountpoint="/data" and category=FILESYSTEM AND last(capacity_used/capacity) > 0.90) DO health:bad
这个语句表示"/data"所在的文件系统,使用容量除以总容量超过90%就把主机状态设置为不良,这时cloudera就会及时发出报警,醍醐灌顶,当头棒喝。
想写出更多华而不实的触发器,可以参考https://www.cloudera.com/documentation/enterprise/latest/topics/cm_metrics.html,在自定义触发器页面里大展身手,让周围同事瞠目结舌。
千里之堤毁于蚁穴,千里之行始于足下,有了触发器做监控预警,做大数据再不用提心吊胆了!
网友评论