RDD

作者: 自由编程 | 来源:发表于2019-10-20 14:49 被阅读0次

RDD的依赖关系：宽依赖和窄依赖
RDD(二)
Spark Core2--LineAge
RDD详解
【Spark入门-笔记】RDD编程
SPARK[RDD之转换函数]
Spark-core：Spark的算子
Spark中repartition和coalesce的用法
Spark中对RDD的理解
Spark RDD

名词解释

resilient distributed dataset (RDD)

运行环境

Spark 2.4.0 is built and distributed to work with Scala 2.11 by default，此处注意，Spark和Scala的版本号要对应，否则运行的时候回发送各种未知错误。另外，Spark2.4.0对应JDK的版本最好是1.8，如果配合hadoop使用的话，hadoop的版本号可选2.7

maven依赖

#spark
groupId = org.apache.spark
artifactId = spark-core_2.11
version = 2.4.0
#hdfs
groupId = org.apache.hadoop
artifactId = hadoop-client
version = <your-hdfs-version>

初始化环境

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf

val conf = new SparkConf().setAppName(appName).setMaster(master)
val sc = new SparkContext(conf)

使用shell初始化

./bin/spark-shell --master local[4] --packages "org.example:example:0.1"

数据操作

创建RDD:Parallelized Collections

val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)

导入数据:External Datasets

#either a local path on the machine, or a hdfs://, s3a://, etc URI
val distFile = sc.textFile("data.txt")

RDD Operations
...未完待续

网友评论

本文标题：RDD

本文链接：https://www.haomeiwen.com/subject/qnhqlqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

RDD

名词解释

运行环境

数据操作

相关文章

RDD的依赖关系：宽依赖和窄依赖

RDD(二)

Spark Core2--LineAge

RDD详解

【Spark入门-笔记】RDD编程

SPARK[RDD之转换函数]

Spark-core：Spark的算子

Spark中repartition和coalesce的用法

Spark中对RDD的理解

Spark RDD

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读