美文网首页
kylin-kylin元数据监控之job运行超时报警

kylin-kylin元数据监控之job运行超时报警

作者: 李小李的路 | 来源:发表于2020-02-17 15:19 被阅读0次
  • 基于kylin-3.0

背景

  • 在kylin平台上,需要对kylin的job(批处理模式)运行时长进行监控,运行超过1h即发出钉钉报警;
    • 原因:在kylin平台中,所使用的HBase的版本信息在2.x且在2.3版本下,在kylin merge时,会存在kylin写入极大量的小文件到hdfs,造成namenode压力很大甚至于崩溃; (此项为HBase-2.0 bug,issue: HFileOutputFormat2 split a lot of HFile by roll once per rowkey);
    • 同时对运行时长超过一定阈值的任务进行跟进,避免使用方提交超大量任务;

数据源

  • 采用java语言开发,读取HBase中kylin元数据的方式进行;
  • 元数据路径: /execute 和 /execute_out 两个路径下的元数据信息;
    • /execute 是对应kylin job的详细数据信息,和运行状态,(信息量很大、很全)
    • /execute_out是对应kylin job页面的tasks项,对kylin job的tasks中的每一个步骤都会记录下来;

开发思路

  • 第一步:从 /execute_out中读取 某个时间段下 task step状态为 running的。
  • 第二步:拿到第一步的对应的uuid,再从 /execute中中读取对应的 uuid.json,获取job的信息;
  • 第三步:判断此项job 任务提交时间到此刻,已经运行了多长时间,是否达到报警的阈值;

代码

  • java语言开发,读取HBase的数据;
  • 得空可以整理以下,开出来;

相关文章

  • kylin-kylin元数据监控之job运行超时报警

    基于kylin-3.0 背景 在kylin平台上,需要对kylin的job(批处理模式)运行时长进行监控,运行超过...

  • 16 Spark Streaming源码解读之数据清理

    Spark Streaming程序的运行,不断的产生job,不断的生成RDD、不断的接收数据存储数据,不断的保存元...

  • 2021-05-26

    数据大盘 推敲数据的有效性、正确性,确定数据的意义和价值 监控 1、线上程序错误告警、运行时告警、接口超时告警、服...

  • 线上java内存泄露处理实录

    线上现象(各种监控数据) 1.公司项目在监控平台上开始报警(jvm堆内存占用报警,FullGC次数超频率报警) 2...

  • 线上java内存泄露处理实录1

    线上现象(各种监控数据) 1.公司项目在监控平台上开始报警(jvm堆内存占用报警,FullGC次数超频率报警) 2...

  • 描述常见监控系统及SNMP协议

    一、监控系统 1、监控系统概念 监控系统应用在监控硬件、软件和业务上,并及时获取相应的数据并分析保存数据,发送报警...

  • 本司监控报警现状

    监控报警现状本司是基于open falcon进行监控报警 系统资源监控:cpu、mem、io等,都有这些监控和报警...

  • prometheus简介+grafana集成,以nginx日志监

    promethues是一套完整的开源监控报警系统框架,包括数据采集,数据存储,可视化以及报警模块。作为 Cloud...

  • 云监控

    天然集成数据可视化监控数据处理灵活报警 场景: 主机监控 应用场景 混合云场景下监控解决方案云监控插件支持安装在非...

  • 刚入职的小菜鸡,设错了RPC超时,搞了个线上事故

    上面这张监控图,对于服务端的研发同学来说再熟悉不过了。在日常的系统维护中,『服务超时』应该属于监控报警最多的一类问...

网友评论

      本文标题:kylin-kylin元数据监控之job运行超时报警

      本文链接:https://www.haomeiwen.com/subject/nymbfhtx.html