Spark学习笔记

Spark学习笔记

作者: alpha18 | 来源:发表于2019-01-12 15:23 被阅读0次

导入必要的包

from pyspark import SparkConf, SparkContext

上传本地文件到hdfs

hadoop fs -copyFromLocal /data/data.txt /spark/

加载文件数据

lines = sc.textFile('hdfs://localhost:9000/spark/data.txt)

统计单词数量

wordCount = lines.flatMap(lambda line: line.split(" ")).map(lambda word: (word,1)).reduceByKey(lambda a, b : a + b)
wordCount.collect()

统计字符的数量

lineLengths = lines.map(lambda s:len(s)) 
lineLengths.reduce(lambda a, b: a + b)

统计包含特定字符的行的数量

lines.filter(lambda line: 'e' in line).count()

找出单行文本中包含单词数量的最大值

lines.map(lambda line: len(line.split(" "))).reduce(lambda a, b: (a > b and a or b))

持久化

slist = ["Hadoop", "Spark", "Hive"]
rdd = sc.parallelize(slist)
rdd.cache()
rdd.count()
','.join(rdd.collect())

详细代码见https://github.com/freedommay/notebook/tree/master/spark

相关文章

网友评论

本文标题：Spark学习笔记

本文链接：https://www.haomeiwen.com/subject/xlhcdqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Spark学习笔记|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！