Spark菜鸟的进阶之路之RDD编程二

作者: lukeyan | 来源:发表于2017-08-31 22:18 被阅读38次

Spark菜鸟的进阶之路之RDD编程二
Spark菜鸟的进阶之路之RDD编程一
Spark基础二之RDD编程
5.spark core之RDD编程
Spark Core - 编程基础
Spark RDD Map Reduce 基本操作
从零开始学习Spark（三）RDD编程
spark开发笔记(二、RDD编程笔记)
第一讲 spark简介
spark(六)深入理解spark-core:RDD的原理与源码

1、创建RDD

Spark提供了两种创建RDD的方式：

（1）读取外部数据集

（2）在驱动程序中对一个集合进行并行化

创建RDD最简单的方式就是把程序中一个已有的集合传给SparkContext的parallelize()方法（除了在开发原型和测试时，这种方式用的并不多，毕竟这种方式需要把你的整个数据集先放在一台机器的内存中）

更常用的方式是从外部存储中读取数据来创建RDD

2、RDD操作

RDD支持两种操作：transformation和action

RDD的transformation是返回一个新的RDD的操作，比如map() 和 filter() 而action则是向驱动器程序返回结果或把结果写入外部操作系统，会触发实际的计算，比如count() 和 first()

注意：transformation返回的是RDD，而action返回的是其他的数据类型

转化操作

RDD的转化操作是返回新的RDD的操作。转化出来的RDD是惰性求职的，只有在行动操作中用到时才会被计算。

用Scala实现filter()
转化操作

注意：

filter() 操作不会改变已有的inputRDD中的数据。实际上，该操作会返回一个全新的RDD，inputRDD在后面的程序中还可以使用

最后要说的是，通过转化操作，你从已有的RDD中派生出新的RDD，Spark会用谱系图来记录这些RDD之间的依赖关系。

Spark需要用这些信息来按需计算每一个RDD，也可以依靠谱系图在持久化的RDD丢失部分数据时恢复所丢失的数据。

行动操作

我们在驱动器中使用了take()获取了RDD的少量元素，然后在本地遍历这些元素，并再驱动器端打印出来。

RDD还有一个collect() 函数，可以用来获取整个RDD中的数据。如果你把你的RDD筛选到一个很小的规模，并且你还想在本地处理这些数据时，就可以使用它。谨记，只有当你的数据集能在单台机器的内存中放得下时，才能使用collect().

在大多数情况下，RDD不能通过collect() 收集到驱动器进程中，因为他们一般都很大，通常把数据写到诸如HDFS这样的分布式存储系统中，可以使用saveAsTextFile()、saveAsSequenceFile() 或者其他任意的行动操作来把RDD中的内容以各种自带的格式保存起来。

需要注意的是，每当我们调用一个新的行动操作时，整个RDD都会从头开始计算，要避免这种低效的行为，用户可以将中间结果持久化。

网友评论

本文标题：Spark菜鸟的进阶之路之RDD编程二

本文链接：https://www.haomeiwen.com/subject/cxucjxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Spark菜鸟的进阶之路之RDD编程二

相关文章