Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系
窄依赖:一个父RDD的一个分区只会对应于一个子RDD的一个分区。
下图: 父对子是一对一的算子
1> Map/Filter ;
2>对输入进行协同划分的join
宽依赖:一个父RDD的一个分区对应于一个子RDD的多个分区
下图:父对子是一对多的算子
1> groupByKey;
2>未经过协同划分的 join
![](https://img.haomeiwen.com/i14622771/7c2a0c8bda60d9bf.png)
Spark中RDD的高效与DAG图有着莫大的关系,在DAG调度中需要对计算过程划分stage,而划分依据就是RDD之间的依赖关系
窄依赖:一个父RDD的一个分区只会对应于一个子RDD的一个分区。
下图: 父对子是一对一的算子
1> Map/Filter ;
2>对输入进行协同划分的join
宽依赖:一个父RDD的一个分区对应于一个子RDD的多个分区
下图:父对子是一对多的算子
1> groupByKey;
2>未经过协同划分的 join
本文标题:RDD依赖关系
本文链接:https://www.haomeiwen.com/subject/ubbphqtx.html
网友评论