如何使用spark实现topN的获取

如何使用spark实现topN的获取

作者: scott_alpha | 来源:发表于2019-10-01 22:58 被阅读0次

如何使用spark实现topN的获取
Spark系列 - 实时数仓之top3热门广告实战（二）
Spark - 实现TopN
学习中的关键的问题
Spark topN排序
Spark 分组TopN
利用SparkSql提供的api获取数据
JAVA+SCALA实现SPARK求TopN
2020-11-27-Spark-6(Spark-Core)
Spark之自定义AccumulatorV2

方法1：
按照key对数据进行聚合(groupByKey)
将value转换为数组，利用sortBy或者sortWith进行排序
val rddData1 = sparkSession.parallelize(Array(("sivela", 15),("sivela", 18),("sivela", 16),("Alice", 15),("Bob", 18)))
val rddGroup = rddData1.groupByKey()
val rddSort = rddGroup.map(line =>{
(line._1, line.2.toList.sortWith(.toInt > _.toInt).take(1))
})
rddSort.foreach(print)
缺点：数据量太大，会OOM
方法2：
取出所有的key
对key进行迭代，每次取出一个key利用spark的排序算子进行排序
方法3：
自定义分区器，按照key进行分区，使不同的key进到不同的分区
对每个分区运用spark的排序算子进行排序

相关文章

如何使用spark实现topN的获取
方法1：按照key对数据进行聚合(groupByKey)将value转换为数组，利用sortBy或者sortWit...
Spark系列 - 实时数仓之top3热门广告实战（二）
在之前的文章中我们使用 Flink 也实现过 topn 的案例；这里，为了温习 Spark 如何访问 kafk...
Spark - 实现TopN
经典面试题两种方式方式一 1.按照key对数据进行聚合（groupByKey）2.将value转换为数组，利用s...
学习中的关键的问题
hive中的topn操作需要使用到hive的窗口函数执行操作的。 spark的udf可以实现自定义的udf的函数的...
Spark topN排序
源数据排序后实现方法
Spark 分组TopN
利用SparkSql提供的api获取数据
获取Spark SQL 数据帧（DataFrame）通过spark-shell初始化SparkContext，使用...
JAVA+SCALA实现SPARK求TopN
代码如下：使用的spark版本为：spark-core_2.11，基于window平台，使用IDEA+MAVEN ...
2020-11-27-Spark-6(Spark-Core)
spark练习题处理数据上的分组和业务需求上的分组 1.案例topN(要点使用模式匹配重新分组) 2.基础练习题(...
Spark之自定义AccumulatorV2
本文介绍如何使用Spark2中自定义累加器来实现数据的统计。 Spark2.x之后，之前的的accumulator...

网友评论

本文标题：如何使用spark实现topN的获取

本文链接：https://www.haomeiwen.com/subject/hcllpctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|如何使用spark实现topN的获取|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！