spark wordcount

作者: 大龄程序员在帝都 | 来源:发表于2017-04-15 14:58 被阅读40次

Spark | WordCount
scala基础语法
Kafka Streams 入门实例1 WordCount
史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spar
spark 源码分析系列 - wordcount 源码分析
spark wordcount
RDD是什么
Spark Core
spark WordCount
spark wordcount

首先上传含有很多单词的txt文件：上传到hdfs上

如下所示： Hamlet.txt是一个含有很多单词的文本文件，我们通过hdfs命令上传到hdfs中

上传命令：

hdfs dfs -put /root/ww/Hamlet.txt /user/root
#说明
hdfs dfs -put 本地文件 hdfs上路径

上传以后通过spark执行：
只有当result.count时，才会真正的执行，这是一个action。
如下是对应的scala代码，在spark命令行中直接执行
sc在初始化时spark自动设置的

val  rdd = sc.textFile("/user/root/Hamlet.txt")
val result = rdd.flatMap(line => line.split("\\s+")).map(word => (word,1)).reduceByKey(_ + _)
result.count

执行结果如下：

Paste_Image.png

在spark UI中可以看到对应的job

Paste_Image.png

网友评论

本文标题：spark wordcount

本文链接：https://www.haomeiwen.com/subject/fiwnattx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

spark wordcount

相关文章

Spark | WordCount

scala基础语法

Kafka Streams 入门实例1 WordCount

史上最快! 10小时大数据入门实战(九)- 前沿技术拓展Spar

spark 源码分析系列 - wordcount 源码分析

spark wordcount

RDD是什么

Spark Core

spark WordCount

spark wordcount

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读