Spark源码解析:RDD

作者: 2453cf172ab4 | 来源:发表于2017-05-21 22:41 被阅读2150次

0x00 前言

本篇是Spark源码解析的第一篇,主要通过源码分析Spark设计中最重要的一个概念——RDD。

本文会主要讲解RDD的主要概念和源码中的设计,并通过一个例子详细地讲解RDD是如何生成的和转换的。

文章结构

  1. 先回顾一下RDD的一些特征以及几个基本概念
  2. RDD源码分析,整体的源码设计
  3. 举一个例子,通过这个例子来一步步地追踪源码。

0x01 概念

什么是RDD

RDD(Resilient Distributed Dataset):弹性分布式数据集。

我们可以先大致这样理解RDD:RDD是一个容错的、并行的数据结构,可以让用户显式地将数据存储到磁盘和内存中,并能控制数据的分区。同时,RDD还提供了一组丰富的操作来处理这些数据。

注意:RDD作为数据结构,本质上是一个只读的分区记录集合。一个RDD可以包含多个分区,每个分区就是一个dataset片段。RDD可以相互依赖。

RDD的5个特征

下面是源码中对RDD类的注释:

Internally, each RDD is characterized by five main properties:

  • A list of partitions
  • A function for computing each split
  • A list of dependencies on other RDDs
  • Optionally, a Partitioner for key-value RDDs (e.g. to say that the RDD is hash-partitioned)
  • Optionally, a list of preferred locations to compute each split on (e.g. block locations for an HDFS file)

也是说RDD会有5个基本特征:

  1. 有一个分片列表。就是能被切分,和hadoop一样的,能够切分的数据才能并行计算。

  2. 有一个函数计算每一个分片,这里指的是下面会提到的compute函数。

  3. 对其他的RDD的依赖列表,依赖还具体分为宽依赖和窄依赖。

  4. 可选:key-value型的RDD是根据哈希来分区的,类似于mapreduce当中的Paritioner接口,控制key分到哪个reduce。

  5. 可选:每一个分片的优先计算位置(preferred locations),比如HDFS的block的所在位置应该是优先计算的位置。

宽窄依赖

这里有必要稍微解释一下窄依赖(narrow dependency)和宽依赖(wide dependency)。

如果RDD的每个分区最多只能被一个Child RDD的一个分区使用,则称之为narrow dependency;若多个Child RDD分区都可以依赖,则称之为wide dependency。不同的操作依据其特性,可能会产生不同的依赖。

例如map操作会产生narrow dependency,而join操作则产生wide dependency。

如图,两种依赖的区别:

微信公众号

相关文章

  • Spark 控制算子源码解析

    Spark 控制算子源码解析 RDD persist() 算子 使用指定的level来标记RDD进行存储。 可以看...

  • Spark源码解析:RDD

    0x00 前言 本篇是Spark源码解析的第一篇,主要通过源码分析Spark设计中最重要的一个概念——RDD。 本...

  • RDD(二)

    class RDD源码解析 1.1 RDD源码 1.2 RDD类解释 1.3 RDD class中如何体现RDD的...

  • [spark] RDD缓存源码解析

    spark的缓存机制保证了需要访问重复数据的应用(如迭代型算法和交互式应用)可以运行的更快。 完整的存储级别介绍如...

  • Spark Core

    1.spark core1.1 学习方法 1.2 什么是RDD 1.3 源码解释 1.3.1 源码中体现RDD的五...

  • Spark源码之DAGScheduler

    Spark源码之DAGScheduler介绍篇 Spark Application中的RDD经过一系列的Trans...

  • [spark] RDD解析

    RDD(Resilient Distributed Dataset):弹性分布式数据集。 特性 A list of...

  • Spark源码分析:DAGScheduler

    Spark源码分析:DAGScheduler 概述 在RDD一文中提到: 定义RDD之后,程序员就可以在动作(注:...

  • [spark streaming] DStream 和 DStr

    看 spark streaming 源码解析之前最好先了解spark core的内容。 前言 Spark Stre...

  • Spark 中的Tungsten

    spark内核的三大核心:基于RDD的调度系统、Tungsten和Catalyst解析优化引擎 Tungsten ...

网友评论

    本文标题:Spark源码解析:RDD

    本文链接:https://www.haomeiwen.com/subject/tgivxxtx.html