1:可以抽象地理解为一个大数组(Array)。这个数组是分布在集群上的,逻辑上RDD的每个分区是一个Partiton
2: 4种创建方式;2种操作算子
3:cache()函数缓存中间数据
4:本质上,meta-data,存储block、node等的映射关系
5:从hdfs等外部文件创建RDD时,可使用hdfs分区策略,也可重分区
5.1 hash分区:数据项key值取hash值,hash值相同的元素同一分区
5.2 range分区:将属于同一数据范围的元素放入同一分区
6. 主要算子及功能 (输入、转换、输出)
网友评论