弊端:随着Task数量增多,ShuffleMapTask会创建许多ShuffleBlockFile小文件,增大了磁盘IO
优化:开启consolidation机制,复用缓冲区Bucket及ShuffleBlockFile
弊端:随着Task数量增多,ShuffleMapTask会创建许多ShuffleBlockFile小文件,增大了磁盘IO
优化:开启consolidation机制,复用缓冲区Bucket及ShuffleBlockFile
本文标题:spark hashshuffle流程分析
本文链接:https://www.haomeiwen.com/subject/turldctx.html
网友评论