监控 State 和 Checkpoint
监控 Checkpoint 行为的最简单方法是通过 WebUI 界面,最值得关注的是:
-
当触发 checkpoint 的时间一直很高时,Operator 收到第一个 checkpoint barrier 的时间一直很高,这意味着 checkpoint barriers 需要很长时间才能从 Source 到 Operator。这通常表明系统在恒定背压(backpressure)下工作。
-
对齐持续时间。在 Exactly-once 语义下,有多个输入的 Operator,已经接收到 barrier 的通道将被阻止接收进一步的数据,直到所有剩余的通道赶上并接收到它们的 barrier 的持续时间。
理想情况下,这两个值都应该是低值,持续出现较高的值意味着 checkpoint barrier 在 job graph 中缓慢移动,通常是由于 backpressure 存在(没有足够的资源来处理记录)。也可以通过增加处理记录的端到端延迟来观察
网友评论