美文网首页
Spark 基本概念

Spark 基本概念

作者: 李飞_fd28 | 来源:发表于2019-12-19 23:16 被阅读0次

    Spark 基本概念

    file

    基本定义如下:

    RDD(resillient distributed dataset):弹性分布式数据集。
    Task:具体执行任务。Task分为ShuffleMapTask和ResultTask两种。ShuffleMapTask和ResultTask分别类似于Hadoop中的Map,Reduce。
    Job:用户提交的作业。一个Job可能由一到多个Task组成。
    Stage:Job分成的阶段。一个Job可能被划分为一到多个Stage。
    Partition:数据分区。即一个RDD的数据可以划分为多少个分区。
    NarrowDependency:窄依赖。即子RDD依赖于父RDD中固定的Partition。NarrowDependency分为OneToOneDependency和RangeDependency两种。
    ShuffleDependency:shuffle依赖,也称为宽依赖。即子RDD对父RDD中的所有Partition都有依赖。
    DAG(Directed Acycle graph):有向无环图。用于反映各RDD之间的依赖关系。

    lightbatis 数据库访问包 Lightbatis

    相关文章

      网友评论

          本文标题:Spark 基本概念

          本文链接:https://www.haomeiwen.com/subject/vizvnctx.html