美文网首页
Spark - 实现TopN

Spark - 实现TopN

作者: 坨坨的大数据 | 来源:发表于2022-02-10 11:35 被阅读0次

经典面试题
两种方式

方式一

1.按照key对数据进行聚合(groupByKey)
2.将value转换为数组,利用scala的sortBy或者sortWith进行排序(mapValues)
缺点:数据量太大会OOM

方式二

1.自定义分区器,按照key进行分区,使不同的key进到不同的分区
2.对每个分区运用spark的排序算子进行排序

相关文章

网友评论

      本文标题:Spark - 实现TopN

      本文链接:https://www.haomeiwen.com/subject/tbenkrtx.html