美文网首页
Spark topN排序

Spark topN排序

作者: 冰_茶 | 来源:发表于2018-07-04 14:24 被阅读0次

源数据

cat source.txt
10,20,4,335,21,20,290,19022,12232,10,1,24,58,299,600

排序后

cat result
19022
12232
600
335
299
290
58
24
21
20

实现方法

spark-shell
val N=10
val hf= sc.textFile("file:///data/spark/top10.txt")
hf.flatMap(line=>line.split(',')).map(x=>(x.toInt,null)).sortByKey(false).take(N).foreach(x=>{println(x._1))


相关文章

  • Spark topN排序

    源数据 排序后 实现方法

  • 2020-12-16-Spark-24(复习提纲)

    1.使用工具类时的多线程问题,多线程问题2.topN案例 组内排序案例的性能分析3.开窗案例再写一遍4.spark...

  • Spark 分组TopN

  • Spark - 实现TopN

    经典面试题两种方式 方式一 1.按照key对数据进行聚合(groupByKey)2.将value转换为数组,利用s...

  • 排序及topN

    基于排序机制的wordcount 按照每个单词出现次数的顺序,降序排序 二次排序 安装文件的第一列排序,如果第一列...

  • 堆排序和topN算法

    堆排序和topN算法:topN算法,第一次调用topN,然后把海量数据一次和小顶堆第一个比较,如果>第一个元素,就...

  • Spark分组取TopN

    本文记录了利用Scala和Java两种语言来实现先分组,然后取每个分组的TopN。 1.文本内容 班级名 空格 分...

  • spark分组取topN

    row_number() over(partition by cooperate_id order by day ...

  • Spark系列 - 实时数仓之top3热门广告实战(二)

      在之前的文章中我们使用 Flink 也实现过 topn 的案例;这里,为了温习 Spark 如何访问 kafk...

  • 2020-12.4--Spark-12(Spark-Core)

    distinct算子 数据写入mysql topN案例的性能分析 1.spark基本概念的复习 RDD:是一个...

网友评论

      本文标题:Spark topN排序

      本文链接:https://www.haomeiwen.com/subject/noueuftx.html