Spark源码解析：RDD

作者: 2453cf172ab4 | 来源:发表于2017-05-21 22:41 被阅读2150次

Spark 控制算子源码解析
Spark源码解析：RDD
RDD(二)
[spark] RDD缓存源码解析
Spark Core
Spark源码之DAGScheduler
[spark] RDD解析
Spark源码分析：DAGScheduler
[spark streaming] DStream 和 DStr
Spark 中的Tungsten

0x00 前言

本篇是Spark源码解析的第一篇，主要通过源码分析Spark设计中最重要的一个概念——RDD。

本文会主要讲解RDD的主要概念和源码中的设计，并通过一个例子详细地讲解RDD是如何生成的和转换的。

文章结构

先回顾一下RDD的一些特征以及几个基本概念
RDD源码分析，整体的源码设计
举一个例子，通过这个例子来一步步地追踪源码。

0x01 概念

什么是RDD

RDD（Resilient Distributed Dataset）：弹性分布式数据集。

我们可以先大致这样理解RDD：RDD是一个容错的、并行的数据结构，可以让用户显式地将数据存储到磁盘和内存中，并能控制数据的分区。同时，RDD还提供了一组丰富的操作来处理这些数据。

注意：RDD作为数据结构，本质上是一个只读的分区记录集合。一个RDD可以包含多个分区，每个分区就是一个dataset片段。RDD可以相互依赖。

RDD的5个特征

下面是源码中对RDD类的注释：

Internally, each RDD is characterized by five main properties:

A list of partitions

A function for computing each split

A list of dependencies on other RDDs

Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)

Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)

也是说RDD会有5个基本特征:

有一个分片列表。就是能被切分，和hadoop一样的，能够切分的数据才能并行计算。
有一个函数计算每一个分片，这里指的是下面会提到的compute函数。
对其他的RDD的依赖列表，依赖还具体分为宽依赖和窄依赖。
可选：key-value型的RDD是根据哈希来分区的，类似于mapreduce当中的Paritioner接口，控制key分到哪个reduce。
可选：每一个分片的优先计算位置（preferred locations），比如HDFS的block的所在位置应该是优先计算的位置。

宽窄依赖

这里有必要稍微解释一下窄依赖（narrow dependency）和宽依赖（wide dependency）。

如果RDD的每个分区最多只能被一个Child RDD的一个分区使用，则称之为narrow dependency；若多个Child RDD分区都可以依赖，则称之为wide dependency。不同的操作依据其特性，可能会产生不同的依赖。

例如map操作会产生narrow dependency，而join操作则产生wide dependency。

如图，两种依赖的区别：

微信公众号

网友评论

本文标题：Spark源码解析：RDD

本文链接：https://www.haomeiwen.com/subject/tgivxxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！