美文网首页
RDD持久化

RDD持久化

作者: 436048bfc6a1 | 来源:发表于2019-03-10 17:33 被阅读0次
  1. 官网介绍

One of the most important capabilities in Spark is persisting (or caching) a dataset in memory across operations

spark的最重要的一个功能就是跨操作的在内存中持久化(缓存)一个数据集

When you persist an RDD, each node stores any partitions of it that it computes in memory and reuses them in other actions on that dataset (or datasets derived from it). This allows future actions to be much faster (often by more than 10x)

当你持久化一个RDD, 每一个node存储RDD的所有的分区信息,
这样就可以在以内存的方式进行计算并且在以后的作用在该dataset
(或者来源自该dataset的数据集)的action中进行重用。
这样以后再使用该action,该action执行的更快(通常超过原来的10倍)

Caching is a key tool for iterative algorithms and fast interactive use

Caching对于迭代算法和快速交互使用的关键工具

You can mark an RDD to be persisted using the persist() or cache() methods on it

可以使用persist()方法或者cache()方法来标识某个RDD是持久化的
  1. cache()

2.1 源码


相关文章

  • RDD持久化

    RDD持久化 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点...

  • RDD持久化策略

    RDD持久化是可以手动选择不同的策略的。比如可以将RDD持久化在内存中、持久化到磁盘上、使用序列化的方式持久化,多...

  • Spark RDD 持久化

    RDD Persistence Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久...

  • Spark RDD持久化级别

    RDD持久化用于RDD重用和节省重新计算,方便构建迭代算法,缓存粒度为整个RDD 持久化级别 如何选择存储级别? ...

  • spark的存储管理中的shuffle持久化

    与RDD持久化不同之处是:shuffle持久化必须是在磁盘;其次,每一个RDD基于磁盘的持久化都会有一个文件,而s...

  • Spark1.6.3 cache()和persist()

    RDD的持久化也就是说假如我们从hdfs读取文件,形成RDD。当我们对RDD进行持久化操作之后,,然后再针对该RD...

  • RDD持久化

    http://www.ccblog.cn/102.htm

  • RDD持久化

    rdd的持久化算子有三种: 1、cache:将数据持久化到内存 2、persist:可以将数据持久化到磁盘,也可以...

  • RDD持久化

    官网介绍 One of the most important capabilities in Spark is p...

  • RDD持久化

    为什么需要持久化 所谓的持久化,就是将数据进行保存,避免数据丢失。RDD持久化并非将数据落盘保存,而是用作缓存。了...

网友评论

      本文标题:RDD持久化

      本文链接:https://www.haomeiwen.com/subject/vgcppqtx.html