一、RDD是什么?
RDD是一个弹性可复原的分布式数据集!
RDD是一个逻辑概念,一个RDD中有多个分区,一个分区在Executor节点上执行时,他就是一个迭代器。
一个RDD有多个分区,一个分区肯定在一台机器上,但是一台机器可以有多个分区,我们要操作的是分布在多台机器上的数据,而RDD相当于是一个代理,对RDD进行操作其实就是对分区进行操作,就是对每一台机器上的迭代器进行操作,因为迭代器引用着我们要操作的数据!
二、RDD的五大特性
RDD是由多个分区组成的集合
每个分区上会有一个函数作用在上面,实现分区的转换
RDD与RDD之间存在依赖关系,实现高容错性
如果RDD里面装的是(K-V)类型的,有分区器
如果从HDFS这种文件系统中创建RDD,会有最佳位置,是为了数据本地化
网友评论