美文网首页
spark的存储管理中的shuffle持久化

spark的存储管理中的shuffle持久化

作者: scott_alpha | 来源:发表于2019-10-12 13:58 被阅读0次

与RDD持久化不同之处是:shuffle持久化必须是在磁盘;其次,每一个RDD基于磁盘的持久化都会有一个文件,而shuffle数据块持久化中,数据块表示的是逻辑上的概念。
shuffle有两种方式:将shuffle数据块映射为文件;将shuffle数据块映射成文件中的一段,可以将分时运行的map任务产生的shuffle数据块合并到同一个文件中,减少shuffle文件的总数。

相关文章

网友评论

      本文标题:spark的存储管理中的shuffle持久化

      本文链接:https://www.haomeiwen.com/subject/coeqmctx.html