1.什么时候使用checkpoint
(1)迭代计算,要求保证数据安全
(2)对速度要求不高(跟cache进行对比)
(3)将中间结果保存到hdfs
//设置checkpoint目录(分布式文件系统目录hdfs目录)
//经过复杂计算,得到计算结果
//将中间结果checkpoint到指定的hdfs目录中
//后续的计算,就可以使用前面指定的数据了
checkpoint流程 指定后的文件保存路径注:该方法既没有生成新的RDD,也没有触发任务执行,只会标记以后触发Action时会将数据保存到对应的文件路径中
网友评论