美文网首页
SPARK[RDD之dependencies]

SPARK[RDD之dependencies]

作者: 北风第一支 | 来源:发表于2017-07-16 11:46 被阅读0次

Resilient Distributed Datasets

[rɪ'zɪlɪənt] 准确翻译为 容错的 并行的 数据结构 而不是弹性分布式数据集合
RDD提供了丰富的集合操作函数,来有别于hadoop中单调的mapreduce函数。

RDD作为数据结构,本质上是一个只读的分区记录集合。一个RDD可以包含多个分区,每个分区就是一个dataset片段。RDD可以相互依赖。如果RDD的每个分区最多只能被一个Child RDD的一个分区使用,则称之为narrow dependency;若多个Child RDD分区都可以依赖,则称之为wide dependency。不同的操作依据其特性,可能会产生不同的依赖。例如map操作会产生narrow dependency,而join操作则产生wide dependency。

RDD是粗粒度数据结构,每一次操作都会生成一个新的RDD,在RDD之间就会形成一个链表关系的前后依赖关系。


Paste_Image.png Paste_Image.png

相关文章

  • SPARK[RDD之dependencies]

    Resilient Distributed Datasets [rɪ'zɪlɪənt] 准确翻译为 容错的 并行的...

  • Learning Spark [2] - Spark API结构

    RDD RDD是spark最基础的抽象类 其拥有以下几个特点: Dependencies(依赖) Partitio...

  • Spark RDD Api使用指南

    ​ 在Spark快速入门-RDD文章中学了spark的RDD。spark包含转换和行动操作。在进行spark程...

  • Spark源码之DAGScheduler

    Spark源码之DAGScheduler介绍篇 Spark Application中的RDD经过一系列的Trans...

  • 2 通过案例对SparkStreaming透彻理解之二

    Spark Core是基于RDD形成的,RDD之间都会有依赖关系。而Spark Streaming是在RDD之上增...

  • Spark Scheduler内部原理剖析

    通过文章“Spark核心概念RDD”我们知道,Spark的核心是根据RDD来实现的,Spark Scheduler...

  • Spark 之RDD

    为什么要设计RDD 网上资料很多,这里我给罗列出来,许多的迭代算法和交互式数据挖掘工具,这些应用场景的共同点是:...

  • spark之rdd

    RDD的创建 从集合中创建 makeRDD函数创建 parallelize函数创建 从外部存储中创建 从其他RDD...

  • Spark之RDD

    最近在学习Spark, 网上搜集了一些学习文章,把便于自己理解的揉杂在一起,方便自己学习回顾。 RDD概念 RDD...

  • Spark之Rdd

    注:以下代码scala版本采用 2.11.12 spark的版本采用spark-2.4.5-bin-hadoop2...

网友评论

      本文标题:SPARK[RDD之dependencies]

      本文链接:https://www.haomeiwen.com/subject/tynzhxtx.html