原理可以参考 https://blog.csdn.net/monkeyboy_tech/article/details/122008124
解决方案参考 https://blog.csdn.net/jane3von/article/details/110841858
把每个Dataset在经过spark sql执行之后需要coalesce(1),然后经过union之后,会有1000个分区数据,再重分区20。而且要用sparkContext (sc)里面的union算子,而不能使用dataset的union算子,那样会有无数次的union,而用sc会一次union起来。
————————————————
版权声明:本文为CSDN博主「jane3von」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/jane3von/article/details/110841858
网友评论