RDD编程

RDD编程

作者: zlcook | 来源:发表于2017-07-21 17:41 被阅读28次

spark(六)深入理解spark-core:RDD的原理与源码
spark开发笔记(二、RDD编程笔记)
PySpark-数据操作-RDD
Spark系列2 - Spark RDD编程
从零开始学习Spark（三）RDD编程
RDD编程
RDD编程
RDD编程
Spark Core - 编程基础
Spark编程基础（Scala版）——RDD编程

RDD基础

RDD：Resilient Distributed Datasets，弹性分布式数据集
分布在集群中的只读对象集合（由多个分区（Partition）构成，这些分区运行在集群中的不同节点上）
可以存储在磁盘或内存中（多种存储级别）
通过并行“转换”操作构造
失效后自动重构
RDD可以包含Python、java、Scala中任意类型的对象，甚至可以包含用户自定义的对象。
两种方法创建RDD:
1.读取外部数据集。
2.在驱动程序里分发驱动器程序中的对象集合（比如list和set）。
RDD支持两种类型操作
- 1.转化操作（tranformation）:由一个RDD生成一个新的RDD.旧的RDD不会被改变。map、filter、groupBy、reduceBy
- 2.行动操作（action）:对RDD计算出一个结果，并把结果返回到驱动程序中，或者写入外部存储系统中。count、collect、saveAsTextFile
  - 注：转化操作返回的是RDD，行动操作返回的是其它数据类型。
    
    操作示例
惰性求值
转化操作和行动操作的区别在于Spark计算RDD的方式不同。RDD的转化操作都是惰性求值，即对RDD调用转化操作（如map()）时，操作不会立即执行，它们只有第一次在一个行动操作中用到时才会真正计算。
默认情况下，Spark的RDD会在每次对它们进行行动操作时重新计算，如果想在多个行动操作中重用同一个RDD,可以使用RDD.persist()，让Spark把这个RDD缓存起来。默认缓存到内存中（以分区方式存储到集群中各个机器上）
持久化（缓存）
- 持久化原因如上。持久化数据丢失怎么办？让Spark持久化一个RDD，计算出RDD的节点会分别保存它们所求出的分区数据，如果一个有持久化的节点发生故障，Spark会在用到缓存的数据时重算丢失的数据分区，当然可以把数据备份到多个节点上，以避免单节点故障拖累进度。
持久化数据方式：默认情况下persist()会把数据以序列化的形式缓存在JVM的堆空间中，当我们把数据写到磁盘或堆外存储上是也总是使用序列化数据。
持久化级别：
如果采用缓存在内存中的级别，当内存放不下是，Spark会自动利用最近最少使用（LRU）的策略吧最老的分区从内存中移除。
image.png

向Spark传递函数

Spark 的大部分转化操作和一部分行动操作，都需要依赖用户传递的函数来计算。
在Scala 中，我们可以把定义的内联函数、方法的引用或静态方法传递给Spark，就像Scala 的其他函数式API 一样。我们还要考虑其他一些细节，比如所传递的函数及其引用的数据需要是可序列化的（实现了Java 的Serializable 接口）。
如果在Scala 中出现了NotSerializableException，通常问题就在于我们传递了一个不可序列化的类中的函数或字段。记住，传递局部可序列化变量或顶级对象中的函数始终是安全的。

常见转化操作和行动操作

Transformation与Action实现

sample(withReplacement, fraction, seed)：对RDD采样，以及是否替换。
对一个RDD的转化操作
对两个RDD的转化操作
对一个RDD进行的行动操作

一个完整案例

wordcount案例

程序执行流程

相关文章

spark(六)深入理解spark-core:RDD的原理与源码
一.弹性分布式数据集(RDD) 本部分描述RDD和编程模型,首先讨论设计目标,然后定义RDD,讨论Spark的编程...
spark开发笔记(二、RDD编程笔记)
RDD编程 RDD的基本概念 Spark编程模型是弹性分布式数据集(Resilient Distributed D...
PySpark-数据操作-RDD
更多信息https://blue-shadow.top/ RDD 编程基础相关概念 pair RDD ...
Spark系列2 - Spark RDD编程
一、RDD 编程基础 1 RDD 创建从文件系统创建RDD textFile textFile参数说明：若参数是...
从零开始学习Spark（三）RDD编程
RDD编程 RDD (Resilient Distributed Dataset 弹性分布式数据集)是Spark中...
RDD编程
RDD基础 RDD：Resilient Distributed Datasets，弹性分布式数据集分布在集群中的...
RDD编程
1.读取数据，将RDD持久化到内存中，并进行行动操作。 2.一般常用的是从外部存储中读取来创建RDD，如Spark...
RDD编程
RDD基础概念： RDD：弹性分布式数据集（Resilient Distributed Dataset），spar...
Spark Core - 编程基础
RDD编程什么是RDD RDD是Spark的基石，是实现Spark数据处理的核心抽象。RDD是一个抽象类，它代表...
Spark编程基础（Scala版）——RDD编程
1、RDD编程基础 1.1 RDD创建 Spark采用textFile()方法来从文件系统中加载数据创建RDD 1...

网友评论

本文标题：RDD编程

本文链接：https://www.haomeiwen.com/subject/rdvskxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|RDD编程|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！