美文网首页
RDD依赖关系说明

RDD依赖关系说明

作者: maya_data | 来源:发表于2018-12-12 19:09 被阅读0次

相比于宽依赖,窄依赖对优化很有利 ,主要基于以下两点:

    宽依赖往往对应着shuffle操作,需要在运行过程中将同一个父RDD的分区传入到不同的子RDD分区中,中间可能涉及多个节点之间的数据传输;而窄依赖的每个父RDD的分区只会传入到一个子RDD分区中,通常可以在一个节点内完成转换。

    当RDD分区丢失时(某个节点故障),spark会对数据进行重算。 对于窄依赖,由于父RDD的一个分区只对应一个子RDD分区,这样只需要重算和子RDD分区对应的父RDD分区即可,所以这个重算对数据的利用率是100%的; 对于宽依赖,重算的父RDD分区对应多个子RDD分区,这样实际上父RDD 中只有一部分的数据是被用于恢复这个丢失的子RDD分区的,另一部分对应子RDD的其它未丢失分区,这就造成了多余的计算;更一般的,宽依赖中子RDD分区通常来自多个父RDD分区,极端情况下,所有的父RDD分区都要进行重新计算。

参考:https://yq.aliyun.com/ziliao/309940

相关文章

  • RDD依赖关系说明

    相比于宽依赖,窄依赖对优化很有利 ,主要基于以下两点: 宽依赖往往对应着shuffle操作,需要在运行过程中将...

  • RDD的依赖关系:宽依赖和窄依赖

    RDD之间的依赖关系是指RDD之间的上下来源关系,RDD2依赖RDD1,RDD4依赖于RDD2和RDD3,RDD7...

  • Spark之RDD强化学习

    一、RDD依赖关系 1、RDD的依赖关系分为窄依赖和宽依赖;2、窄依赖是说父RDD的每一个分区最多被一个子RDD的...

  • RDD 的宽依赖和窄依赖

    1. RDD 间的依赖关系 RDD和它依赖的父 RDD(s)的关系有两种不同的类型,即窄依赖(narrow dep...

  • Spark Core2--LineAge

    Lineage RDD Lineage(又称为RDD运算图或RDD依赖关系图)是RDD所有父RDD的graph(图...

  • RDD依赖关系

    Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD...

  • RDD依赖关系

    前言 RDD的五大特性 A list of partitions一组分区:多个分区,在RDD中用分区的概念。 A ...

  • RDD的依赖关系

    RDD的依赖关系 窄依赖 每个父RDD的一个Partition最多被子RDD的一个Partition所使用,例如m...

  • 1.3 Spark-RDD的依赖关系

    RDD的依赖关系分为两种: 窄依赖(A>B) 定义:父RDD的一个分区最多被子RDD的一个分区依赖。有两中情况: ...

  • Spark RDD的依赖关系

    RDD和它依赖的父RDD(s)的关系有两种不同类型,即窄依赖(narrow dependency)和 宽依赖(wi...

网友评论

      本文标题:RDD依赖关系说明

      本文链接:https://www.haomeiwen.com/subject/nibphqtx.html