与RDD持久化不同之处是:shuffle持久化必须是在磁盘;其次,每一个RDD基于磁盘的持久化都会有一个文件,而shuffle数据块持久化中,数据块表示的是逻辑上的概念。
shuffle有两种方式:将shuffle数据块映射为文件;将shuffle数据块映射成文件中的一段,可以将分时运行的map任务产生的shuffle数据块合并到同一个文件中,减少shuffle文件的总数。
与RDD持久化不同之处是:shuffle持久化必须是在磁盘;其次,每一个RDD基于磁盘的持久化都会有一个文件,而shuffle数据块持久化中,数据块表示的是逻辑上的概念。
shuffle有两种方式:将shuffle数据块映射为文件;将shuffle数据块映射成文件中的一段,可以将分时运行的map任务产生的shuffle数据块合并到同一个文件中,减少shuffle文件的总数。
本文标题:spark的存储管理中的shuffle持久化
本文链接:https://www.haomeiwen.com/subject/coeqmctx.html
网友评论