0x00 前言
本篇是Spark源码解析的第一篇,主要通过源码分析Spark设计中最重要的一个概念——RDD。
本文会主要讲解RDD的主要概念和源码中的设计,并通过一个例子详细地讲解RDD是如何生成的和转换的。
文章结构
- 先回顾一下RDD的一些特征以及几个基本概念
- RDD源码分析,整体的源码设计
- 举一个例子,通过这个例子来一步步地追踪源码。
0x01 概念
什么是RDD
RDD(Resilient Distributed Dataset):弹性分布式数据集。
我们可以先大致这样理解RDD:RDD是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来处理这些数据。
注意:RDD作为数据结构,本质上是一个只读的分区记录集合。一个RDD可以包含多个分区,每个分区就是一个dataset片段。RDD可以相互依赖。
RDD的5个特征
下面是源码中对RDD类的注释:
Internally, each RDD is characterized by five main properties:
- A list of partitions
- A function for computing each split
- A list of dependencies on other RDDs
- Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
- Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)
也是说RDD会有5个基本特征:
-
有一个分片列表。就是能被切分,和hadoop一样的,能够切分的数据才能并行计算。
-
有一个函数计算每一个分片,这里指的是下面会提到的compute函数。
-
对其他的RDD的依赖列表,依赖还具体分为宽依赖和窄依赖。
-
可选:key-value型的RDD是根据哈希来分区的,类似于mapreduce当中的Paritioner接口,控制key分到哪个reduce。
-
可选:每一个分片的优先计算位置(preferred locations),比如HDFS的block的所在位置应该是优先计算的位置。
宽窄依赖
这里有必要稍微解释一下窄依赖(narrow dependency)和宽依赖(wide dependency)。
如果RDD的每个分区最多只能被一个Child RDD的一个分区使用,则称之为narrow dependency;若多个Child RDD分区都可以依赖,则称之为wide dependency。不同的操作依据其特性,可能会产生不同的依赖。
例如map操作会产生narrow dependency,而join操作则产生wide dependency。
如图,两种依赖的区别:

网友评论