Resilient Distributed Datasets
1.RDD是什么
RDDs 是一个可以容错且并行的数据结构,它可以让用户显式的将中间结果数据集保存在内中、控制数据集的分区来达到数据存放处理最优.一个 RDD 是一个只读,被分区的数据集,用户可以控制 RDDs 的两个方面:数据存储和分区。对于需要复用的 RDD,用户可以明确的选择一个数据存储策略(比如内存缓存)。他们也可以基于一个元素的 key 来为 RDD 所有的元素在机器节点间进行数据分区,这样非常利于数据分布优化
2.为什么需要RDD
框架提供了大量的对访问利用计算资源的抽象,但是它们缺少了对利用分布式内存的抽象。样使的它们在处理需要在多个计算之间复用中间结果的应用的时候会非常的不高效
网友评论