Spark RDD

Spark RDD

作者: 风暴之芽 | 来源:发表于2019-02-04 14:38 被阅读0次

Spark RDD Api使用指南
2 通过案例对SparkStreaming透彻理解之二
Spark Scheduler内部原理剖析
Spark Core - 编程基础
Spark中对RDD的理解
spark RDD详解
pyspark sql、rdd实践
RDD详解
Spark RDD详解--加米谷大数据
Spark的算子(函数)

RDD：弹性分布式数据集，它的本质是数据集的描述，具有只读的、分布式的特性。spark在基于RDD的模型，具有良好的通用性、容错性和并行处理数据的能力。

主要特点：

1.让用户可以显式得将计算结果cache到内存中，控制数据划分、并有更加丰富的操作集合来处理；

2.只读，从一个RDD变换得到另一个RDD，但是不可修改本身的RDD

3.记录数据的变换而不是本身，具有容错性

4.懒操作，延迟计算，action时才操作

5.瞬时性，用时候才产生，用完就释放

RDD的创建：

1.从HDFS中创建：val a = sc.textfile（“/xxx/yyy/flie”） sc是sparkcontext的缩写，是spark的入口，是编写spark程序的第一个类

2.通过现有的RDD转换：val b =a.map（x=>（x，1））

3.定义一个scala数组：val c =sc.parallelize（1 to 10,1）

4.对一个已经存在的RDD通过持久化操作生成：val d = a.persist（），a.saveAsHadoopFile（“xx/yy/file”）

RDD的操作：

RDD主要有两类操作：transforation和action，transformation主要是RDD之间的转换，action对数据进行一定的操作

前者采用懒操作，只有对相关的RDD使用action操作才会发生计算

操作算子

相关文章

Spark RDD Api使用指南
在Spark快速入门-RDD文章中学了spark的RDD。spark包含转换和行动操作。在进行spark程...
2 通过案例对SparkStreaming透彻理解之二
Spark Core是基于RDD形成的，RDD之间都会有依赖关系。而Spark Streaming是在RDD之上增...
Spark Scheduler内部原理剖析
通过文章“Spark核心概念RDD”我们知道，Spark的核心是根据RDD来实现的，Spark Scheduler...
Spark Core - 编程基础
RDD编程什么是RDD RDD是Spark的基石，是实现Spark数据处理的核心抽象。RDD是一个抽象类，它代表...
Spark中对RDD的理解
Spark中对RDD的理解简介 what the is RDD? RDD(Resilient Distribut...
spark RDD详解
一、 RDD概念 1.1、RDD为什么会产生？ RDD是Spark的基石，是实现Spark数据处理的核心抽象。那么...
pyspark sql、rdd实践
1. spark sql 2. spark rdd
RDD详解
RDD基本操作（引用） 1、RDD是什么 RDD：Spark的核心概念是RDD (resilientdistrib...
Spark RDD详解--加米谷大数据
1、RDD是什么 RDD：Spark的核心概念是RDD (resilientdistributed dataset...
Spark的算子(函数)
Spark的算子 1、RDD基础什么是RDD？ RDD（Resilient Distributed Datase...

网友评论

本文标题：Spark RDD

本文链接：https://www.haomeiwen.com/subject/bompsqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Spark RDD|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！