
在spark 上跑hive sql 脚本,在spark 2.x以上跑没问题 ,hive上没问题,spark1.6上跑最后会报如图以上问题 ,墙内比较难找到对应解决办法 ,可以在脚本里配置一下配置,spark.sql.adaptive.enabled=true,默认值是false。设置为true的话,就是开启了Spark SQL自适应查询引擎,就是在运行时,通过一些统计指标来动态优化Spark sql的执行计划。
产生原因目前没有找到合适的解释,产生问题的地方很简单,就是两个表在left join 预估是因为数据倾斜导致 ,a left join b的时候 ,b表数据较小,大量数据关联不上,导致数据倾斜
网友评论