Spark词频前十的统计练习

Spark词频前十的统计练习

作者: 那山的狐狸 | 来源:发表于2020-04-14 10:47 被阅读0次

Spark词频前十的统计练习
Spark开发--Scala--编程--示例（十）
Hadoop String预备知识
名词性结构-我可以是I could be the one
用Py做文本分析3：制作词云图
Kafka+Spark Streaming本地词频统计
词频统计
词频统计
Spark Streaming学习六七八章笔记
辽经干python 元组和字典（2）

注：图片如果损坏，点击文章链接：https://www.toutiao.com/i6815390070254600712/

承接上一个文档《Spark本地环境实现wordCount单词计数》

进一步延伸，做一个词频前十的统计练习

逻辑：在reduceByKey的基础上，首先要根据key对应的value值进行排序（降序排序），取前10个的结果就是Top10

val reduceByKeyRDD = sc.textFile("file:///opt/bigdata/spark/README.md").flatMap(_.split(" ")).filter(_.nonEmpty).map((_,1)).reduceByKey(_+_)

reduceByKeyRDD.sortBy(t=>t._2,ascending=false)

reduceByKeyRDD.sortBy(t=>t._2,ascending=false).take(10)

sortBy函数：第一个匿名函数表示按照元组的第二个元素进行排序，ascending=false表示按照降序排序，如果不指定这个参数，默认是升序的排序

reduceByKeyRDD.sortBy(t=>t._2 *-1).take(10)

也实现了降序排列，提取TOP10

下面这个方法也可以

reduceByKeyRDD.map(t=>t.swap).sortByKey(ascending=false).map(t=>t.swap).take(10)

分解看下：

reduceByKeyRDD.map(t => t.swap).sortByKey(ascending=false).

t.swap：("the",22)--> (22,"the")--> ("the",22)

reduceByKeyRDD.map(t=>t.swap).sortByKey(ascending=false).map(t=>t.swap).take(10)

下面这个性能会更好：

reduceByKeyRDD.map(t=>t.swap).sortByKey(ascending=false).take(10).map(t=>t.swap)

用top(10)代替sortByKey(ascending=false).take(10)这一部分

reduceByKeyRDD.map(t=>t.swap).top(10).map(t=>t.swap)

相关文章

Spark词频前十的统计练习
注：图片如果损坏，点击文章链接：https://www.toutiao.com/i6815390070254600...
Spark开发--Scala--编程--示例（十）
参考网站：https://spark.apache.org/examples.html 一、词频数统计统计一个...
Hadoop String预备知识
基础练习：熟悉Hadoop streaming工作机制，用streaming机制进行词频统计，对Hadoop思想...
名词性结构-我可以是I could be the one
结构练习：找名词性结构结构统计：介词哪些？_______________词频最高的介词是_____。 I cou...
用Py做文本分析3：制作词云图
1.词频统计在词频统计之前，需要先完成分词工作。因为词频统计是基于分词后所构建的list进行的。 1.1使用Pa...
Kafka+Spark Streaming本地词频统计
前几天简单了解了Hadoop(HDFS,MR,YRAN)之后，进一步了解一下现在使用比较多的Spark生态--Sp...
词频统计
通过Linux命令实现词频统计现在有一遍英语文档The_Man_of_Property.txt通过Linux命令...
词频统计
词频统计请设计一个高效的方法，找出任意指定单词在一篇文章中的出现频数。给定一个string数组article和...
Spark Streaming学习六七八章笔记
通过词频统计功能学习Spark-submit的使用：先打开一个命令窗口输入nc -lk 9999 然后在另一个窗...
辽经干python 元组和字典（2）
字典词频统计词云

网友评论

本文标题：Spark词频前十的统计练习

本文链接：https://www.haomeiwen.com/subject/qllzmhtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Spark词频前十的统计练习|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！