美文网首页
宽依赖和窄依赖

宽依赖和窄依赖

作者: 正居明阳 | 来源:发表于2018-07-11 09:42 被阅读0次

窄依赖是指父RDD的每个分区只被子RDD的一个分区所使用,子RDD分区通常对应常数个父RDD分区(O(1),与数据规模无关)

相应的,宽依赖是指父RDD的每个分区都可能被多个子RDD分区所使用,子RDD分区通常对应所有的父RDD分区(O(n),与数据规模有关)

简单来说, 就是窄依赖是一对一或者多对一, 宽依赖就是多对多或者一对多

窄依赖,如果一个part失败了,只需要固定几个父part重跑,宽的就需要所有的都重跑了

两个或者固定几个part合到一个part,起到减少分区的作用,这个也是窄依赖,比如coalese

要知道part是一个逻辑概念,可能是对应多个文件,当coalese时不会真的执行把多个分区合成一个分区,而是在rdd处理的时候,按照映射关系直接去取就好了,不存在shuffle过程!

相关文章

网友评论

      本文标题:宽依赖和窄依赖

      本文链接:https://www.haomeiwen.com/subject/pzicpftx.html