文档:http://spark.apache.org/docs/latest/rdd-programming-guide.html#resilient-distributed-datasets-rdds
全称:Resilient Distributed Datasets
which is a fault-tolerant collection of elements that can be operated on in parallel
一种编程模型的抽象,是一种具有容错性基于内存的集群计算抽象方法。
每个RDD具有5个特征:
1 分区(partition):有一个数据分片列表,能够将数据进行切分,切分后的数据能够进行并行计算,是数据集的原子组成部分。
2 函数(compute): 计算每个分片,返回一个可遍历的结果,用于说明在父RDD上执行何种计算。
3 依赖(dependency): 计算每个RDD对父RDD的依赖列表,源RDD没有依赖,通过依赖关系描述血统(lineage)。
4 优先位置(可选):每个分片的优先计算位置
5 分区策略(可选)描述分区模式和数据存储位置
每个Transformation操作都会产生一种RDD:
网友评论