Flink检查点（checkpoint）、保存点（savepoi

作者: LittleMagic | 来源:发表于2020-03-03 22:11 被阅读0次

Flink检查点（checkpoint）、保存点（savepoi
Flink源码阅读（四）--- checkpoint制作
Flink_window窗口计算如何解决乱序,延迟,迟到数据问题
2018-04-03|insert流程-检查点(CHECKPOI
Flink容错机制-Checkpoint
Flink1.13 Checkpoint原理
Flink基础系列28-Flink容错机制
Flink-1.12（九）容错，检查点，保存点
2018-12-23-tensorflow要点
Postgressql之Checkpoint

最近一段时间很忙，顾不上仔细选题，写一个所有人都知道的小知识点吧。

checkpoint和savepoint是Flink为我们提供的作业快照机制，它们都包含有作业状态的持久化副本。官方文档这样描述checkpoint：

Checkpoints make state in Flink fault tolerant by allowing state and the corresponding stream positions to be recovered, thereby giving the application the same semantics as a failure-free execution.

而对savepoint的描述是：

A Savepoint is a consistent image of the execution state of a streaming job, created via Flink’s checkpointing mechanism. You can use Savepoints to stop-and-resume, fork, or update your Flink jobs.

下面这张来自Flink 1.1版本文档（更新的版本就不见了）的图示出了checkpoint和savepoint的关系。

用几句话总结一下。

checkpoint的侧重点是“容错”，即Flink作业意外失败并重启之后，能够直接从早先打下的checkpoint恢复运行，且不影响作业逻辑的准确性。而savepoint的侧重点是“维护”，即Flink作业需要在人工干预下手动重启、升级、迁移或A/B测试时，先将状态整体写入可靠存储，维护完毕之后再从savepoint恢复现场。
savepoint是“通过checkpoint机制”创建的，所以savepoint本质上是特殊的checkpoint。
checkpoint面向Flink Runtime本身，由Flink的各个TaskManager定时触发快照并自动清理，一般不需要用户干预；savepoint面向用户，完全根据用户的需要触发与清理。
checkpoint的频率往往比较高（因为需要尽可能保证作业恢复的准确度），所以checkpoint的存储格式非常轻量级，但作为trade-off牺牲了一切可移植（portable）的东西，比如不保证改变并行度和升级的兼容性。savepoint则以二进制形式存储所有状态数据和元数据，执行起来比较慢而且“贵”，但是能够保证portability，如并行度改变或代码升级之后，仍然能正常恢复。
checkpoint是支持增量的（通过RocksDB状态后端），特别是对于超大状态的作业而言可以降低写入成本。savepoint并不会连续自动触发，所以savepoint没有必要支持增量。

民那晚安。