美文网首页
Spark中sortByKey是如何进行全局排序的

Spark中sortByKey是如何进行全局排序的

作者: 0_9f3a | 来源:发表于2018-01-03 20:26 被阅读0次

首先有一个问题
有一台服务器:24core 128G内存,要处理一个1T的数据怎么办?

要采用拆分策略,将1T的数据拆分成128G大小的块进入服务器计算。
1T数据拆分成了8个块P1-P8
而且要使P1的数据全部小于P2 P2数据全部小于P3以此类推

这就是分而治之的思想


SortByKey对全局排序

在sortByKey之前将数据使用partitioner根据数据范围来分区,使得p1所有数据小于p2,p2所有数据小于p3。然后利用sortByKey算子对每一个partition进行分区,这样全局的数据就被排序了

相关文章

网友评论

      本文标题:Spark中sortByKey是如何进行全局排序的

      本文链接:https://www.haomeiwen.com/subject/goeknxtx.html