美文网首页
Spark词频前十的统计练习

Spark词频前十的统计练习

作者: 那山的狐狸 | 来源:发表于2020-04-14 10:47 被阅读0次

注:图片如果损坏,点击文章链接:https://www.toutiao.com/i6815390070254600712/

承接上一个文档《Spark本地环境实现wordCount单词计数

进一步延伸,做一个词频前十的统计练习

逻辑:在reduceByKey的基础上,首先要根据key对应的value值进行排序(降序排序),取前10个的结果就是Top10

val reduceByKeyRDD = sc.textFile("file:///opt/bigdata/spark/README.md").flatMap(_.split(" ")).filter(_.nonEmpty).map((_,1)).reduceByKey(_+_)

reduceByKeyRDD.sortBy(t=>t._2,ascending=false)

reduceByKeyRDD.sortBy(t=>t._2,ascending=false).take(10)

sortBy函数:第一个匿名函数表示按照元组的第二个元素进行排序,ascending=false表示按照降序排序,如果不指定这个参数,默认是升序的排序

reduceByKeyRDD.sortBy(t=>t._2 *-1).take(10)

也实现了降序排列,提取TOP10

下面这个方法也可以

reduceByKeyRDD.map(t=>t.swap).sortByKey(ascending=false).map(t=>t.swap).take(10)

分解看下:

reduceByKeyRDD.map(t => t.swap).sortByKey(ascending=false).

t.swap:("the",22)--> (22,"the")--> ("the",22)

reduceByKeyRDD.map(t=>t.swap).sortByKey(ascending=false).map(t=>t.swap).take(10)

下面这个性能会更好:

reduceByKeyRDD.map(t=>t.swap).sortByKey(ascending=false).take(10).map(t=>t.swap)

用top(10)代替sortByKey(ascending=false).take(10)这一部分

reduceByKeyRDD.map(t=>t.swap).top(10).map(t=>t.swap)

相关文章

网友评论

      本文标题:Spark词频前十的统计练习

      本文链接:https://www.haomeiwen.com/subject/qllzmhtx.html