美文网首页
Flink 常见问题处理

Flink 常见问题处理

作者: 飞向天王星星 | 来源:发表于2023-06-12 16:59 被阅读0次

反压的危害
https://blog.csdn.net/Johnson8702/article/details/123841740

Flink 容错机制
https://blog.csdn.net/weixin_42073629/article/details/109192510

checkpoint持续增大
https://blog.csdn.net/qq_21383435/article/details/125453087
https://blog.csdn.net/u013411339/article/details/97854471

Flink checkpoint参数调优
https://blog.csdn.net/chanyue123/article/details/123084761
https://nightlies.apache.org/flink/flink-docs-master/docs/deployment/config/#state-backend-incremental
https://nightlies.apache.org/flink/flink-docs-master/docs/ops/state/checkpointing_under_backpressure/#unaligned-checkpoints
https://nightlies.apache.org/flink/flink-docs-master/docs/ops/production_ready/#choose-the-right-checkpoint-interval

checkpoint问题排查
https://blog.51cto.com/u_9928699/3755368

Flink taskmanager释放
https://zhuanlan.zhihu.com/p/339993175

再说slot
https://blog.csdn.net/u011624903/article/details/108796243
一个slot中,同一个类型的任务,只能运行1个,比如一个slot中可以运行1个source+1个transformation+1个sink,也可以只运行1个source,但是不可以运行2个source
parallelism不能大于总的slot个数,最好是能够匹配的,如果少于slot会造成slot浪费,多于slot的话,会报错。

slot与cpu关系

flink的taskmanager提供处理槽slot,通常slot的数量是和每个taskmanager的可用cpu内核数成比例,一般情况你的slot数是你每个taskmanager的cpu核数,但是考虑到超线程,可以让slot的数量是CPUCore的倍数,如:slot numbers = cpuCore*n,假如有10个slot,那么cpu core可以是5 或者10。

slot与内存关系

我们一般在配置文件中或者在提交flink作业的时候,会指定taskmanager的内存大小,如我们指定taskmanager的内存大小为12g,每个taskmanager的slot数量指定为6,那么每个slot的内存大小是12/6=2。

双流join
https://blog.csdn.net/qq_44696532/article/details/124456980

spark streaming 重试次数

https://dandelioncloud.cn/article/details/1441401550966214658/

SparkStreaming 设置隔离级别
https://blog.csdn.net/wangpei1949/article/details/104466219

yarn调度配置
https://www.cnblogs.com/piperck/p/10234102.html

yarn虚拟内存 
https://blog.csdn.net/m0_52735414/article/details/127178545

Flink 中 slot ,task,并行度的概念以及与CPU,内存的关系
https://www.ngui.cc/51cto/show-668443.html?action=onClick

Flink 内存管理

https://www.sohu.com/a/404679408_120342237

https://blog.csdn.net/u010376788/article/details/105347848

https://blog.csdn.net/young_0609/article/details/123542878

http://www.zlprogram.com/Show/39/39450.shtml

反压的影响

反压并不会直接影响作业的可用性,它表明作业处于亚健康的状态,有潜在的性能瓶颈并可能导致更大的数据处理延迟。通 常来说,对于一些对延迟要求不太高或者数据量比较小的应用来说,反压的影响可能并不明显,然而对于规模比较大的 Flink 作业来说反压可能会导致严重的问题。

反压如果不能正确处理,可能会影响到checkpoint时长和state大小,甚至可能会导致资源耗尽甚至系统崩溃。

影响checkpoint时长:barries不会越过普通数据,数据处理会被阻塞也可能会导致checkpoint barries流经整个数据管道 的时长变长,导致checkpoint的总时长(End to Duration)变长。

影响state大小:barries对齐时,接受到较快的输入管道的barries后,他后面数据会被缓存起来单不处理,直到较慢的输 入管道的barries也到达,这些被缓存的数据会被放到state里面,导致checkpoint变大。

这两个影响对于生产环境的作业十分危险的,因为checkpoint时保证数据一致性的关键,checkpoint时间变长有可能会导致 checkpoint超时失败。而state大小同样可能拖慢checkpoint甚至OOM(使用Heap-based StateBackend)或者物理机内存 使用超过容器资源(使用RocksDBStateBackend)的稳定性。

相关文章

网友评论

      本文标题:Flink 常见问题处理

      本文链接:https://www.haomeiwen.com/subject/lvbxddtx.html