指标监控

作者: 3bd3c1497272 | 来源:发表于2020-05-26 16:05 被阅读0次

指标的特性

  标准化      可量化     多维度

指标监控的报警链路

常用的指标项

可用性
流量
cpu 内存 checkpoint connector等
自定义指标
缓冲命中
外部接口的调用
丢弃数据的比例（异常处理一般都catch了不然抛出异常任务将一直重启）
处理逻辑耗时

如何确定关注的指标项

作业相关     a. 是否可用   b 是否稳定   c 是否异常

性能相关      a 是否延迟   b 数据倾斜   d性能瓶颈

业务逻辑相关   a 上游数据问题   b 新上逻辑问题   c数据丢失

聚合的维度信息

```
task
```
```
operator
```
```
job
```
```
host   物理指标项
```

聚合的指标项

```
总和   均值  最大  最小
```
```
差值
```
```
99线
```
```
指标缺失
```

实际类型排查

任务延时：   
处理方式： 通过反压找到节点的问题  是否是GC等，查看堆栈信息，查看日志
调整方式： 增加反压节点的并发，调整每个taskmanager的cpu于内存，拆开flink的slot共享链chain

作业failover   
1. jobmanager 的failover（zk访问超时，资源的问题）
2. taskmanager的failover

作业无法提交
yarn的资源限制     jar包过大   jobmanager资源不足

作业异常停止  ---  无指标采集上来
重启侧率问题    重启次数达到上限

总结：排查问题的方法论：查看日志，查看指标项 --》查看反压 ---》定位到节点-----》定位到位置 -----》调整代码逻辑或者是沟通

-------有时候还得多加一些理性的猜测

排查问题

通过指标由粗到细的进行排查

网友评论

本文标题：指标监控

本文链接：https://www.haomeiwen.com/subject/pgtvahtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

指标监控

指标的特性

指标监控的报警链路

常用的指标项

如何确定关注的指标项

聚合的维度信息

聚合的指标项

实际类型排查

总结：排查问题的方法论：查看日志，查看指标项 --》查看反压 ---》定位到节点-----》定位到位置 -----》调整代码逻辑或者是沟通

排查问题

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

指标监控

指标的特性

指标监控的报警链路

常用的指标项

如何确定关注的指标项

聚合的维度信息

聚合的指标项

实际类型排查

总结： 排查问题的方法论： 查看日志，查看指标项 --》 查看反压 ---》 定位到节点-----》 定位到位置 -----》 调整代码逻辑或者是沟通

排查问题

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

总结：排查问题的方法论：查看日志，查看指标项 --》查看反压 ---》定位到节点-----》定位到位置 -----》调整代码逻辑或者是沟通