控制类算子

作者: 0_9f3a | 来源:发表于2017-12-31 11:44 被阅读0次

一.cache
将数据持久化到内存中去
注意:
1.cache是一个懒执行算子,必须有一个action类算子触发执行。
2.cache类算子的返回值必须复制给一个变量,在接下来的job中,直接使用这个变量就能读取到内存中缓存的数据。
3.cache类算子不能立即紧跟action类算子。紧跟action类算子之后,这个算子就不是RDD类型的变量,之后的RDD就拿不到这个变量了。


这样就是错的

4.如果想释放掉缓存在内存中的数据,使用unpersisit算子,这个算子是Action类算子。
二.persist 算子
cache算子实际上就是persist算子的简化版

persist(StorageLevel.MEMORY_ONLY)=cache()

persist方法其他持久化级别

一种有16种常用的有
MEMORY_ONLY 和cache一样
MEMORY_AND_DISK_SER 会将RDD计算到数据序列化,内存放不了再放到磁盘
MEMORY_AND_DISK   RDD先放到内存中,内存放不了再放到磁盘

持久化的单位是partition:每一个partition处理的数据不会一般存储到内存中一半存储在磁盘中

相关文章

  • 控制类算子

    一.cache将数据持久化到内存中去注意:1.cache是一个懒执行算子,必须有一个action类算子触发执行。2...

  • Spark学习之问题整理

    关于RDD算子的问题: 1、如果Application中只有一个action类算子,那么有没有必要使用控制类算子?...

  • Spark中Shuffle类算子参考

    #Shuffle类算子参考如下: 去重类算子 def distinct() def distinct(numPar...

  • Spark-Shuffle类算子优化+

    优化就是:尽量避免使用shuffle类算子 如果有可能的话,要尽量避免使用shuffle类算子。因为Spark作业...

  • How it works(25) Geotrellis是如何在S

    1. 引入 上一章我们研究了Focal类中最基础的游标(Cursor)类算子,游标类算子的核心思想代表了大多数Fo...

  • Spark算子

    一、算子分类1、transformation算子:这类算子并不触发提交作业,完成作业中间过程处理Transform...

  • Spark系列 —— 算子详解(二)

    前言 本文接上一篇 Spark系列 —— 各类算子详解(一)这篇主要来讲讲 Action 算子 以及 Cache...

  • Spark开发--RDD编程--常用算子--Transforma

    一、常用算子 (33) spark算子大致上可分三大类算子:1、Value数据类型的Transformation算...

  • Spark优化----开发调优(下)

    上次讲到避免使用shuffle类算子,接下来继续 5、使用map-side预聚合的shuffle操作 如果因为业务...

  • 算子整理

    Spark中有两类算子1.transformations(转换算子):延迟执行算子返回值是一个RDD2.Actio...

网友评论

    本文标题:控制类算子

    本文链接:https://www.haomeiwen.com/subject/rouogxtx.html