RDD特征

作者: maya_data | 来源:发表于2018-12-12 19:00 被阅读0次

    文档:http://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds

    全称:Resilient Distributed Datasets

    which is a fault-tolerant collection of elements that can be operated on in parallel

    一种编程模型的抽象,是一种具有容错性基于内存的集群计算抽象方法。

    每个RDD具有5个特征:

        1 分区(partition):有一个数据分片列表,能够将数据进行切分,切分后的数据能够进行并行计算,是数据集的原子组成部分。

        2 函数(compute): 计算每个分片,返回一个可遍历的结果,用于说明在父RDD上执行何种计算。

        3 依赖(dependency): 计算每个RDD对父RDD的依赖列表,源RDD没有依赖,通过依赖关系描述血统(lineage)。

        4 优先位置(可选):每个分片的优先计算位置

        5 分区策略(可选)描述分区模式和数据存储位置

    每个Transformation操作都会产生一种RDD:

    相关文章

      网友评论

          本文标题:RDD特征

          本文链接:https://www.haomeiwen.com/subject/kpbphqtx.html