Rdd的创建

作者: 大数据修行 | 来源:发表于2019-05-09 16:41 被阅读0次

1.通过集合生成

val data = Array(1, 2, 3, 4, 5)
val distData = sc.parallelize(data)
distData.collect

Spark will run one task for each partition of the cluster.
一个partition对应一个task

2.通过外部共享文件

scala> val distFile = sc.textFile("data.txt")
  • If using a path on the local filesystem, the file must also be accessible at the same path on worker nodes. Either copy the file to all workers or use a network-mounted shared file system.
    本地获取的话,每个节点下面都要有那个目录和文件
  • All of Spark’s file-based input methods, including textFile, support running on directories, compressed files, and wildcards as well. For example, you can use textFile("/my/directory"), textFile("/my/directory/.txt"), and textFile("/my/directory/.gz").
    hdfs下,可以获取一个文件夹下的所有文件,也可用通配符获取
  • .The textFile method also takes an optional second argument for controlling the number of partitions of the file. By default, Spark creates one partition for each block of the file (blocks being 128MB by default in HDFS), but you can also ask for a higher number of partitions by passing a larger value. Note that you cannot have fewer partitions than blocks.
    可以设置参数确定分区数,分区数不能小于block数量

相关文章

  • sparkcore的基本知识点

    makeRdd的创建RDD的创建rdd的创建方式大致分为3种:从集合中创建rdd,从外部存储,从其他rdd创建 T...

  • 【Spark入门-笔记】RDD编程

    1 RDD基础 2 创建RDD-两种方式 2.1 进行并行化创建RDD 2.2 读取数据创建RDD 3 RDD操作...

  • spark之rdd

    RDD的创建 从集合中创建 makeRDD函数创建 parallelize函数创建 从外部存储中创建 从其他RDD...

  • Spark系列2 - Spark RDD编程

    一、RDD 编程基础 1 RDD 创建 从文件系统创建RDD textFile textFile参数说明:若参数是...

  • 1.spark基础-RDD

    1.RDD创建 Spark是以RDD概念为中心运行的。RDD是一个容错的、可以被并行操作的元素集合。创建一个RDD...

  • Spark编程基础(Scala版)——RDD编程

    1、RDD编程基础 1.1 RDD创建 Spark采用textFile()方法来从文件系统中加载数据创建RDD 1...

  • SPARK[RDD之转换函数]

    前面讲到了RDD的分区、RDD的创建,这节将讲解RDD的转换,RDD的转换就是从父RDD生成一个新的RDD,新的R...

  • 3.Spark学习(Python版本):Spark RDD编程基

    Spark中针对RDD的操作包括创建RDD、RDD转换操作和RDD行动操作。 Step1. 启动HDFS和Spar...

  • Rdd的创建

    1.通过集合生成 Spark will run one task for each partition of th...

  • RDD分区源码追踪

    RDD的创建分为从集合中创建RDD和从存储系统中创建RDD,两者的分区策略有所不同,下面将通过例子和源码来介绍它们...

网友评论

    本文标题:Rdd的创建

    本文链接:https://www.haomeiwen.com/subject/islwoqtx.html