Spark中对RDD的理解

作者: 陈_志鹏 | 来源:发表于2017-12-20 15:19 被阅读49次

    Spark中对RDD的理解

    简介

    what the is RDD?

    RDD(Resilient Distributed Datasets)
    (Resilient 弹性),(Distributed 分布式),(Datasets 数据集)
    RDD是一个弹性分布式数据集,是分布式内存的一个抽象概念,提供了一种高度受限共享内存模型。

    RDD的特性

    1.分片的数据集(list of partiton)

    假设要读取HDFS上的数据,每个block块就是一个分片(partiton),所有的分片(partiton)组合在一起就是一个集合(list) 一个RDD。

    2.在分片中使用函数计算(function for computing each partiton)

    现在假设我们有map的函数,和一个RDD,这个RDD中有3个partiton,那么这个map函数会在每个partiton之上的进行计算。
    计算完毕后,又组成一个新的RDD,以迭代的方式进行计算。


    RDD计算顺序

    3.数据集依赖RDD

    从2.在分片中使用函数计算可以看出。
    首先RDD1初始化的时候是在HDFS系统中读出来的数据,然后通过map函数在partiton进行计算又组成了一个新的RDD2,这样我们可以得出结论RDD都是有依赖关系的。依赖的好处就是有容错,假设RDD2中的partiton数据丢失了,可以重新在RDD1中计算过来。

    4.KV的RDD

    如果RDD中的元素是二元组类型的话,那么这个RDD就叫KV格式的RDD

    5.task计算数据本地化

    task理解为是一个线程,在任务调度的时候RDD会提供一个接口给我们调用,知道partiton所在的位置之后就分发task让其执行任务。

    Driver的作用

    1.负责任务的分发(task的分发)
    2.将每一个task的计算结果拉回到Driver端。

    spark的代码执行流程

    1.从文件系统中读取数据(Flie System)加载到RDD。
    2.使用transformations算子 对RDD的计算(不会立即执行)。
    3.触发Action类算子执行(立即执行)。

    相关文章

      网友评论

        本文标题:Spark中对RDD的理解

        本文链接:https://www.haomeiwen.com/subject/wqmgwxtx.html