美文网首页
flink系统学习

flink系统学习

作者: 3bd3c1497272 | 来源:发表于2020-05-26 14:38 被阅读0次

    flink自身提供的2中metric指标监控的方式

    • 图形界面,通过flink自带的webui来查看
    • restful api 通过flink暴露的接口来采集
    • 可以试着打日志
    • 可以采集jobmanager日志与taskmanager的日志信息,分析常见的failover的原因

    flink任务监控系统

    • 依赖于外部的系统grafana or JMX 来采集指标项

    基于metric运维的优点

    • 整合数据

    监控指标项的定义

    • 延迟 : 最近一个成功处理的数据offset 与最新生成的一条数据的offset的差值
      有的系统可以直接返回值,有的需要通过metric来做
    • 反压 : 直接判断问题算子

    指标的设定

    • JVM metrics
      可以设置一些阈值 类似于cpu不得超过50%, 内存占用不超50%,GC比例不超15%,fullGC恒定
    • 流数据 metrics
      
    • state metrics
      当前checkpoint的进度,时长,文件大小,频率,checkpoint的失败恢复比例
      DFS的设置,冗余,分片,DFS的管理,碎片文件管理,回收机制
      

    metrics的局限性

    • 难以保证准确性     -----需要做去噪处理
      
    • 难以回答统计型分析
      
    • 难以融合其他的metrics
      

    自己遇到的线上问题

    1. 集群周期性的相应慢
    •    有跑批量统计的定时任务
      

    相关文章

      网友评论

          本文标题:flink系统学习

          本文链接:https://www.haomeiwen.com/subject/hngmahtx.html