RDD

RDD

作者: 蜗牛勤 | 来源:发表于2016-06-19 17:03 被阅读0次

RDD的依赖关系：宽依赖和窄依赖
RDD(二)
Spark Core2--LineAge
RDD详解
【Spark入门-笔记】RDD编程
SPARK[RDD之转换函数]
Spark-core：Spark的算子
Spark中repartition和coalesce的用法
Spark中对RDD的理解
Spark RDD

Resilient Distributeed DataSets:弹性分布式数据集

创建：由SparkContext负责创建，将内存中的集合或者外部文件系统作为输入源

转换：将一个RDD通过一定的操作变换成为另外一个RDD,下面的代码中filter就是一个转换操作

val file = sc.textFile("hdfs://root/log")

val filterRDD = file.filter(_.contains("hello world"))

transform 常用的API：

控制：对RDD进行持久化，可以让RDD保存在磁盘或者内存中，cache默认将RDD缓存在内存中。

行动：Spark中的行动操作基本分为两类，一类的操作结果变成Scala集合或者标量，另一类就将RDD保存到外部文件或者数据库系统中。

spark会惰性计算RDD。

Spark程序或者shell的工作方式大致如下：

1、从外部数据创建输入RDD

2、使用诸如filter()这样的转化操作对RDD进行转化，以定义新的RDD

3、告诉spark对需要被重用的RDD执行persist()操作

4、使用行动操作(如count()、first())等来触发一次并行计算，spark会对计算进行优化后再执行。

RDD对象是不可变的，一旦对象被创建，他们的值就无法再变化。

相关文章

RDD的依赖关系：宽依赖和窄依赖
RDD之间的依赖关系是指RDD之间的上下来源关系，RDD2依赖RDD1，RDD4依赖于RDD2和RDD3,RDD7...
RDD(二)
class RDD源码解析 1.1 RDD源码 1.2 RDD类解释 1.3 RDD class中如何体现RDD的...
Spark Core2--LineAge
Lineage RDD Lineage（又称为RDD运算图或RDD依赖关系图）是RDD所有父RDD的graph（图...
RDD详解
RDD基本操作（引用） 1、RDD是什么 RDD：Spark的核心概念是RDD (resilientdistrib...
【Spark入门-笔记】RDD编程
1 RDD基础 2 创建RDD-两种方式 2.1 进行并行化创建RDD 2.2 读取数据创建RDD 3 RDD操作...
SPARK[RDD之转换函数]
前面讲到了RDD的分区、RDD的创建，这节将讲解RDD的转换，RDD的转换就是从父RDD生成一个新的RDD，新的R...
Spark-core：Spark的算子
目录一.RDD基础1.什么是RDD2.RDD的属性3.RDD的创建方式4.RDD的类型5.RDD的基本原理二.Tr...
Spark中repartition和coalesce的用法
在Spark的Rdd中，Rdd是分区的。有时候需要重新设置Rdd的分区数量，比如Rdd的分区中，Rdd分区比较多...
Spark中对RDD的理解
Spark中对RDD的理解简介 what the is RDD? RDD(Resilient Distribut...
Spark RDD
一、RDD概述 1.1 什么是RDD？ RDD（Resilient Distributed Dataset）叫做弹...

网友评论

本文标题：RDD

本文链接：https://www.haomeiwen.com/subject/qcqbdttx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|RDD|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！