RDD

作者: 自由编程 | 来源:发表于2019-10-20 14:49 被阅读0次

名词解释

resilient distributed dataset (RDD)

运行环境

Spark 2.4.0 is built and distributed to work with Scala 2.11 by default,此处注意,Spark和Scala的版本号要对应,否则运行的时候回发送各种未知错误。另外,Spark2.4.0对应JDK的版本最好是1.8,如果配合hadoop使用的话,hadoop的版本号可选2.7

maven依赖

#spark
groupId = org.apache.spark
artifactId = spark-core_2.11
version = 2.4.0
#hdfs
groupId = org.apache.hadoop
artifactId = hadoop-client
version = <your-hdfs-version>

初始化环境

import org.apache.spark.SparkContext
import org.apache.spark.SparkConf

val conf = new SparkConf().setAppName(appName).setMaster(master)
val sc = new SparkContext(conf)

使用shell初始化

./bin/spark-shell --master local[4] --packages "org.example:example:0.1"

数据操作

创建RDD:Parallelized Collections

val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)

导入数据:External Datasets

#either a local path on the machine, or a hdfs://, s3a://, etc URI
val distFile = sc.textFile("data.txt")

RDD Operations
...未完待续

相关文章

  • RDD的依赖关系:宽依赖和窄依赖

    RDD之间的依赖关系是指RDD之间的上下来源关系,RDD2依赖RDD1,RDD4依赖于RDD2和RDD3,RDD7...

  • RDD(二)

    class RDD源码解析 1.1 RDD源码 1.2 RDD类解释 1.3 RDD class中如何体现RDD的...

  • Spark Core2--LineAge

    Lineage RDD Lineage(又称为RDD运算图或RDD依赖关系图)是RDD所有父RDD的graph(图...

  • RDD详解

    RDD基本操作(引用) 1、RDD是什么 RDD:Spark的核心概念是RDD (resilientdistrib...

  • 【Spark入门-笔记】RDD编程

    1 RDD基础 2 创建RDD-两种方式 2.1 进行并行化创建RDD 2.2 读取数据创建RDD 3 RDD操作...

  • SPARK[RDD之转换函数]

    前面讲到了RDD的分区、RDD的创建,这节将讲解RDD的转换,RDD的转换就是从父RDD生成一个新的RDD,新的R...

  • Spark-core:Spark的算子

    目录一.RDD基础1.什么是RDD2.RDD的属性3.RDD的创建方式4.RDD的类型5.RDD的基本原理二.Tr...

  • Spark中repartition和coalesce的用法

    在Spark的Rdd中,Rdd是分区的。 有时候需要重新设置Rdd的分区数量,比如Rdd的分区中,Rdd分区比较多...

  • Spark中对RDD的理解

    Spark中对RDD的理解 简介 what the is RDD? RDD(Resilient Distribut...

  • Spark RDD

    一、RDD概述 1.1 什么是RDD? RDD(Resilient Distributed Dataset)叫做弹...

网友评论

      本文标题:RDD

      本文链接:https://www.haomeiwen.com/subject/qnhqlqtx.html