美文网首页工作生活
Spark RDD的checkpoint机制

Spark RDD的checkpoint机制

作者: 不愿透露姓名的李某某 | 来源:发表于2019-07-04 22:31 被阅读0次

    1.什么时候使用checkpoint

    (1)迭代计算,要求保证数据安全

    (2)对速度要求不高(跟cache进行对比)

    (3)将中间结果保存到hdfs

    //设置checkpoint目录(分布式文件系统目录hdfs目录)

    //经过复杂计算,得到计算结果

    //将中间结果checkpoint到指定的hdfs目录中

    //后续的计算,就可以使用前面指定的数据了

    checkpoint流程 指定后的文件保存路径

    注:该方法既没有生成新的RDD,也没有触发任务执行,只会标记以后触发Action时会将数据保存到对应的文件路径中

    相关文章

      网友评论

        本文标题:Spark RDD的checkpoint机制

        本文链接:https://www.haomeiwen.com/subject/ouvdhctx.html