FLink Checkpoint 介绍
前提假设
这一篇主要整理下Lightweight Asynchronous Snapshots for Distributed Dataflows 知识点。
算法的前提:
- Network channels are quasi-reliable, respect a FIFO delivery order and can be blocked and unblocked. When a channel is blocked all messages are buffered but not delivered until it gets unblocked.
- Tasks can trigger operations on their channel com- ponents such as block, unblock and send messages Broadcasting messages is also supported on all out- put channels.
- Messages injected in source tasks (i.e. stage barri- ers) are resolved into a “Nil” input channel.
无环ABS
16231222245758.jpg算法
16231206846830.jpg主要流程:
1.operator初始化包括状态,输入输出channel以及函数(函数的初始化一般调用initializeState)的初始化等。
2.operator收到某个input收到的marker消息(barrier)
+ input 加入block input集合,然后block 当前input(并不是停止,而是buffer)
+ 如果block_inputs = inputs(说明收到所有输入的marker消息)
- 向outputs转发该marker消息(也即向所有下游节点发送marker消息)
- 本地快照
- 解锁所有inputs(接着处理每个input的buffer数据)
3.operator收到正常数据
+ 数据处理,状态转变,输出转变(数据处理导致状态发生该变,输出数据发生改变)
+ 向下游管道发送当前处理结果
和Candy-lamport 算法主要区别区别
1.状态只有进程本地状态,并没有管道状态(输入管道buffer数据,不作为状态一分部)
2.由同类型进程(source节点)周期出发marker消息。
有环ABS 介绍
更接近Candy-Lamport的实现
16231221431551.jpg这里Operator的输入分为两种
- 正常的输入
- 环路输入(即下游节点输出作为当前节点的输入)
主要流程
+ 集齐所有正常的输入的marker消息,对本地快照进行copy,向下游发送marker消息
+ 缓存或者记录环路输入消息
+ 当收到所有环路输入的marker消息(第一步发送的marker消息),本地快照(本地快照copy + 环路buffer消息)
+ 一次快照组成(正常输入的计算状态 + 环路输入管道的消息)
和无环的主要区别
有环ABS比起无环ABS,更像是Candy-Lamport的最完整的实现。
- 有环状态组成为进程状态和输入管道消息
Unaligned Checkpointing实现
非对齐checkpoint也是最接近Candy-Lamport的实现,状态是进程状态和管道消息。
16231235382917.jpg主要流程
1.收到第一个marker消息,然后记录本地进程状态,将maker消息放置在输出对列的最后后面,以最快的速度发送下去
2.算子继续正常处理Channel 的输入,记录属于当前快照的输入消息和输出消息
3.将缓存的输入和输出消息以及快照作为状态,持久化起来。
4.快照组成输入管道消息以及输出管道消息加上收到第一个快照。
总结
flink的快照机制其实是参考Candy-Lamport算法实现的,除了在source周期注入marker消息以外,最大的区别就是状态的组成上。
无法环ABS只有本地快照状态,有环ABS状态是本地快照状态 + 环路输入消息
非对齐checkpoint则是本地快照 + 输入消息 + 输出消息
网友评论