如何解决spark多表非对等join导致cross join？

如何解决spark多表非对等join导致cross join？

作者: Gilegamesh | 来源:发表于2022-07-26 09:49 被阅读0次

如何解决spark多表非对等join导致cross join？
MySQL多表联合查询语句的编写及效率分析、优化
Mysql Documentation 阅读笔记: JOIN
MySQL 基础 6 多表查询
与MySQL的零距离接触
20180925-MySQL-Joins
Cross join runtime error: Use th
MySQL数据库篇4
2019-08-19数据库多表查询练习
MySQL Join语法

一般的join如果两边的join条件是一一对应是性能比较好的情况，但是当遇到join条件两边存在多行对应一行或者多行对应多行的情况。就会出现M行join N行结果就会产生笛卡尔积M*N行。如果M和N都不大还好。通过shuffle到磁盘一样能计算出来。但是如果M和N都很大而且不止两表，有很多表同时join。那么将会出现final stage之前将shuffle write M*N*K*P... 无限扩张的数据集。而且根本没法优化。

如下DAG：

cross join

本来只有百万级别的数据量，经过cross join后数据量达到百亿千亿级别。将耗费大量时间去shuffle write，也会导致大量executor磁盘消耗。

join条件皆为非对等join

刚开始可能会想如果将左表进行collect操作先减少主表的数据量就会减少整个DAG的数据量。但是collect之后只能在map/foreach函数进行接下来的操作。就会导致整个DAG产生大量的小job，能算了但是特别慢而且不优雅。

因为经过join多表才产生的cross join，那么不妨把多表进行单独的俩表join，就算产生cross join 数据量也是可控的。

但是spark的DAG是根据整体算子构建最后的action算子才会触发计算，那么无论何种方式进行DAG构建，最终还是会汇总到一起再计算。还是会产生多表cross join。

那么问题就来到如何提前触发俩表join的提前计算了。

众所周知repartition可以触发shuffle，但是shuffle只是改变分区数，shuffle=提前计算吗？

于是我就试了一试。果然。。。

俩表之间cross join

repartition触发了shuffle，相当于触发了提前计算。大大减少了数据量而且最后还能以对等join进行连接。

相关文章

如何解决spark多表非对等join导致cross join？
一般的join如果两边的join条件是一一对应是性能比较好的情况，但是当遇到join条件两边存在多行对应一行或者多...
MySQL多表联合查询语句的编写及效率分析、优化
一、多表连接类型 1. 笛卡尔积(交叉连接)在MySQL中可以为CROSS JOIN或者省略CROSS即JOIN，...
Mysql Documentation 阅读笔记: JOIN
JOIN Basic In MySQL, JOIN, CROSS JOIN, and INNER JOIN are...
MySQL 基础 6 多表查询
1.1 多表查询的概述 1.1.1 多表查询的分类 1.1.1.1连接查询交叉连接:cross join交叉连接...
与MySQL的零距离接触
与MySQL的零距离接触以下是课程的目录截图： 5-6多表更新在MySQL中Join, cross join和I...
20180925-MySQL-Joins
四种join Cross join Inner join Left join Right join 前期准备工作 ...
Cross join runtime error: Use th
Spark 2.1改动：Cross join hint:这个改动比较狠。Spark 认为，大多数情况下，用户不是真...
MySQL数据库篇4
本章主要为多表联查的相关操作。关键词：left join、reght join、inner join、join ...
2019-08-19数据库多表查询练习
数据库 left join左连接 right join右连接 inner join内连接 cross join笛卡...
MySQL Join语法
JOIN、CROSS JOIN、INNER JOIN 在 MySQL 中等价的，都是构成笛卡尔积。 a [LEFT...

网友评论

本文标题：如何解决spark多表非对等join导致cross join？

本文链接：https://www.haomeiwen.com/subject/jqqoirtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|如何解决spark多表非对等join导致cross join？|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！