Spark-RDD的创建

作者: 布莱安托 | 来源:发表于2020-07-06 19:59 被阅读0次

在Spark中创建RDD的方式有三种：1）从集合中创建；2）从外部存储创建。3）从其他RDD转化创建

从集合中创建

从集合中创建RDD，Spark主要提供了两种函数：parallelize和makeRDD

val rdd = sc.parallelize(Array(1,2,3,4))

val rdd = sc.makeRDD(Array(1,2,3,4))
// makeRDD的底层实现调用了parallelize方法

从外部存储创建

外部存储包括本地的文件系统，还有所有Hadoop支持的数据集，比如HDFS、HBase等等。
例如从HDFS读取：

// 使用textFile方法读取文本数据
val rdd = sc.textFile("hdfs://hadoop:9000/text_file.txt")

可以通过操作算子来对已存在的RDD进行变换、计算，以此来得到一个新的RDD。
例如使用map算子进行变换：

// 从集合初始化一个RDD
val rdd1 = sc.parallelize(Array(1,2,3,4))
// 通过map算子变换RDD
val rdd2 = rdd1.map((_,1))

本文标题：Spark-RDD的创建

本文链接：https://www.haomeiwen.com/subject/zgbgqktx.html