美文网首页
RDD的依赖关系

RDD的依赖关系

作者: yumzhang | 来源:发表于2016-10-03 06:42 被阅读0次

RDD的依赖关系

窄依赖

每个父RDD的一个Partition最多被子RDD的一个Partition所使用,例如map,filter,union等都会产生窄依赖;

宽依赖

一个父RDD的Partition会被多个子RDD的Partition所使用,例如groupByKey,reduceByKey,sortByKey等操作都会产生宽依赖。


总结:

如果父RDD的一个Partition被一个子RDD的Partition所使用就是窄依赖,否则就是宽依赖。

特别说明:

对join操作有两种情况,如果join操作的使用每个partition仅仅和已知的Partition进行join,这种join操作就是窄依赖;其他情况的join就是宽依赖。因为是确定的Partition数量的依赖关系,所以就是窄依赖,得出一个推论,窄依赖不仅包含一对一的窄依赖,还包含一对固定个数的窄依赖(也就是说父RDD的依赖的Partition的数量不会随着RDD数据规模的改变而改变)

相关文章

  • RDD的依赖关系:宽依赖和窄依赖

    RDD之间的依赖关系是指RDD之间的上下来源关系,RDD2依赖RDD1,RDD4依赖于RDD2和RDD3,RDD7...

  • Spark之RDD强化学习

    一、RDD依赖关系 1、RDD的依赖关系分为窄依赖和宽依赖;2、窄依赖是说父RDD的每一个分区最多被一个子RDD的...

  • RDD 的宽依赖和窄依赖

    1. RDD 间的依赖关系 RDD和它依赖的父 RDD(s)的关系有两种不同的类型,即窄依赖(narrow dep...

  • Spark Core2--LineAge

    Lineage RDD Lineage(又称为RDD运算图或RDD依赖关系图)是RDD所有父RDD的graph(图...

  • RDD依赖关系

    Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD...

  • RDD依赖关系

    前言 RDD的五大特性 A list of partitions一组分区:多个分区,在RDD中用分区的概念。 A ...

  • RDD的依赖关系

    RDD的依赖关系 窄依赖 每个父RDD的一个Partition最多被子RDD的一个Partition所使用,例如m...

  • 1.3 Spark-RDD的依赖关系

    RDD的依赖关系分为两种: 窄依赖(A>B) 定义:父RDD的一个分区最多被子RDD的一个分区依赖。有两中情况: ...

  • Spark RDD的依赖关系

    RDD和它依赖的父RDD(s)的关系有两种不同类型,即窄依赖(narrow dependency)和 宽依赖(wi...

  • 2 通过案例对SparkStreaming透彻理解之二

    Spark Core是基于RDD形成的,RDD之间都会有依赖关系。而Spark Streaming是在RDD之上增...

网友评论

      本文标题:RDD的依赖关系

      本文链接:https://www.haomeiwen.com/subject/pwadyttx.html