美文网首页
如何选择RDD持久化策略?

如何选择RDD持久化策略?

作者: 一个人一匹马 | 来源:发表于2019-02-21 11:00 被阅读0次

Spark提供的多种持久化级别,主要是为了在CPU和内存消耗之间进行取舍。下面是一些通用的持久化级别的选择建议:

1、优先使用MEMORY_ONLY,如果可以缓存所有数据的话,那么就使用这种策略。因为纯内存速度最快,而且没有序列化,不需要消耗CPU进行反序列化操作。
2、如果MEMORY_ONLY策略,无法存储的下所有数据的话,那么使用MEMORY_ONLY_SER,将数据进行序列化进行存储,纯内存操作还是非常快,只是要消耗CPU进行反序列化。
3、如果需要进行快速的失败恢复,那么就选择带后缀为_2的策略,进行数据的备份,这样在失败时,就不需要重新计算了。
4、能不使用DISK相关的策略,就不用使用,有的时候,从磁盘读取数据,还不如重新计算一次。

相关文章

  • RDD持久化策略

    RDD持久化是可以手动选择不同的策略的。比如可以将RDD持久化在内存中、持久化到磁盘上、使用序列化的方式持久化,多...

  • 如何选择RDD持久化策略?

    Spark提供的多种持久化级别,主要是为了在CPU和内存消耗之间进行取舍。下面是一些通用的持久化级别的选择建议: ...

  • Spark RDD持久化级别

    RDD持久化用于RDD重用和节省重新计算,方便构建迭代算法,缓存粒度为整个RDD 持久化级别 如何选择存储级别? ...

  • RDD持久化

    RDD持久化 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点...

  • Spark RDD 持久化

    RDD Persistence Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久...

  • spark的存储管理中的shuffle持久化

    与RDD持久化不同之处是:shuffle持久化必须是在磁盘;其次,每一个RDD基于磁盘的持久化都会有一个文件,而s...

  • Spark1.6.3 cache()和persist()

    RDD的持久化也就是说假如我们从hdfs读取文件,形成RDD。当我们对RDD进行持久化操作之后,,然后再针对该RD...

  • Redis持久化漫谈

    在Redis的使用当中,持久化一直是一个比较重要的话题,很多同学在使用Redis的过程中对持久化策略如何选择、如何...

  • RDD持久化

    http://www.ccblog.cn/102.htm

  • RDD持久化

    rdd的持久化算子有三种: 1、cache:将数据持久化到内存 2、persist:可以将数据持久化到磁盘,也可以...

网友评论

      本文标题:如何选择RDD持久化策略?

      本文链接:https://www.haomeiwen.com/subject/brfryqtx.html