RDD特征

作者: maya_data | 来源:发表于2018-12-12 19:00 被阅读0次

文档:http://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds

全称:Resilient Distributed Datasets

which is a fault-tolerant collection of elements that can be operated on in parallel

一种编程模型的抽象,是一种具有容错性基于内存的集群计算抽象方法。

每个RDD具有5个特征:

    1 分区(partition):有一个数据分片列表,能够将数据进行切分,切分后的数据能够进行并行计算,是数据集的原子组成部分。

    2 函数(compute): 计算每个分片,返回一个可遍历的结果,用于说明在父RDD上执行何种计算。

    3 依赖(dependency): 计算每个RDD对父RDD的依赖列表,源RDD没有依赖,通过依赖关系描述血统(lineage)。

    4 优先位置(可选):每个分片的优先计算位置

    5 分区策略(可选)描述分区模式和数据存储位置

每个Transformation操作都会产生一种RDD:

相关文章

  • RDD特征

    文档:http://spark.apache.org/docs/latest/rdd-programming-gu...

  • Spark

    RDD五大特征:https://blog.csdn.net/wyqwilliam/article/details/...

  • RDD的依赖关系:宽依赖和窄依赖

    RDD之间的依赖关系是指RDD之间的上下来源关系,RDD2依赖RDD1,RDD4依赖于RDD2和RDD3,RDD7...

  • RDD(二)

    class RDD源码解析 1.1 RDD源码 1.2 RDD类解释 1.3 RDD class中如何体现RDD的...

  • Spark Core2--LineAge

    Lineage RDD Lineage(又称为RDD运算图或RDD依赖关系图)是RDD所有父RDD的graph(图...

  • RDD详解

    RDD基本操作(引用) 1、RDD是什么 RDD:Spark的核心概念是RDD (resilientdistrib...

  • 【Spark入门-笔记】RDD编程

    1 RDD基础 2 创建RDD-两种方式 2.1 进行并行化创建RDD 2.2 读取数据创建RDD 3 RDD操作...

  • SPARK[RDD之转换函数]

    前面讲到了RDD的分区、RDD的创建,这节将讲解RDD的转换,RDD的转换就是从父RDD生成一个新的RDD,新的R...

  • Spark-core:Spark的算子

    目录一.RDD基础1.什么是RDD2.RDD的属性3.RDD的创建方式4.RDD的类型5.RDD的基本原理二.Tr...

  • Spark中repartition和coalesce的用法

    在Spark的Rdd中,Rdd是分区的。 有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多...

网友评论

      本文标题:RDD特征

      本文链接:https://www.haomeiwen.com/subject/kpbphqtx.html