spark checkpoint 和 RDD

作者: 邵红晓 | 来源:发表于2019-10-14 17:57 被阅读0次

spark checkpoint 可以切断血缘关系，持久化再hdfs上，在checkpoint 之后的RDD后就无法知道血缘关系，直接从checkpoint的hdfs上拿到数据，在宽依赖上做Checkpoint获得的收益更大。
rdd 分区，只读，依赖，缓存(spark 非常快的原因之一)，checkpoint（为了通过lineage做容错的辅助）

persist() 和 cache () 区别
cache 会直接将对象存在在jvm内存中缓存，不进行序列化
persist 会进行序列化然后存储在缓存中，可以选择存储级别和是否进行序列化
注意：
缓存有可能丢失，或者存储于内存的数据由于内存不足而被删除，RDD的缓存容错机制保证了即使缓存丢失也能保证计算的正确执行

sc.setCheckpointDir("hdfs://master01:9000/checkpoint")
data.checkpoint

在所有 job action 的时候， runJob 方法中都会调用 rdd.doCheckpoint , 这个会向前递归调用所有的依赖的RDD，看看需不需要 checkpoint。需要需要 checkpoint，然后调用 checkpointData.get.checkpoint()，里面标记状态为 CheckpointingInProgress，里面调用具体实现类的 ReliableRDDCheckpointData 的 doCheckpoint 方法，
doCheckpoint -> writeRDDToCheckpointDirectory，注意这里会把 job 再运行一次，如果已经cache 了，就可以直接使用缓存中的 RDD 了，就不需要重头计算一遍了（怎么又说了一遍），这时候直接把RDD，输出到 hdfs，每个分区一个文件，会先写到一个临时文件，如果全部输出完，进行 rename ，如果输出失败，就回滚delete。
标记状态为 Checkpointed， markCheckpointed方法中清除所有的依赖，怎么清除依赖的呢，就是把RDD 变量的强引用设置为 null，垃圾回收了，会触发 ContextCleaner 里面监听清除实际 BlockManager 缓存中的数据

image.png

如果一个 RDD 被checkpoint了，如果这个 RDD 上有 action 操作时候，或者回溯的这个 RDD 的时候,这个 RDD 进行计算的时候，里面判断如果已经 checkpoint 过, 对分区和依赖的处理都是使用的 RDD 内部的 checkpointRDD 变量
具体细节如下：
如果一个 RDD 被checkpoint了，那么这个 RDD 中对分区和依赖的处理都是使用的 RDD 内部的 checkpointRDD 变量，具体实现是 ReliableCheckpointRDD 类型。这个是在 checkpoint 写流程中创建的。依赖和获取分区方法中先判断是否已经checkpoint，如果已经checkpoint了，就斩断依赖，使用ReliableCheckpointRDD，来处理依赖和获取分区。
如果没有，才往前回溯依赖。依赖就是没有依赖，因为已经斩断了依赖，获取分区数据就是读取 checkpoint 到 hdfs目录中不同分区保存下来的文件。

RDD

输入可能以多个文件的形式存储在HDFS上，每个File都包含了很多块，称为Block。
当Spark读取这些文件作为输入时，会根据具体数据格式对应的InputFormat进行解析，一般是将若干个Block合并成一个输入分片，称为InputSplit，
InputSplit不能跨越文件,也就是说一个block file 不能被多个inputSplit读取
随后将为这些输入分片生成具体的Task。InputSplit与Task是一一对应的关系。
至于partition的数目：

image.png