产生shuffle的原因
其根本原因在于数据需要进行迁移才能产出正确的数据
join什么时候不需要数据迁移就能得出结果?
当 分区数 和 分区器 是一样的时候
也就是在本地就能完成相关join的操作
所以不需要数据迁移
也就可以不产生shuffle
结论
不一定产生shuffle。
其根本原因在于数据需要进行迁移才能产出正确的数据
当 分区数 和 分区器 是一样的时候
也就是在本地就能完成相关join的操作
所以不需要数据迁移
也就可以不产生shuffle
不一定产生shuffle。
本文标题:Spark 中join一定产生shuffle吗?
本文链接:https://www.haomeiwen.com/subject/kksfrltx.html
网友评论