美文网首页
【spark】Value型transformation算子

【spark】Value型transformation算子

作者: 流氓兔bunny | 来源:发表于2016-09-22 23:52 被阅读0次

分类(按输入分区和输出分区)

1. 一对一

  • map: 通过f(x)实现一一对应的运算,输入输出RDD分区不变
map
  • flatmap: 通过f(x)实现一一对应的运算,和map不同的是输出分区将合并为一个RDD分区(不管输入有几个RDD分区)
flatmap
  • mapPartitions: 按照f(x)把输入分区过滤为输出分区,输入输出RDD分区不变
mapPartitions
  • glom: 把输入分区数据集合成Array结构放在输出分区中,输入输出RDD分区不变
glom

2. 多对一

  • union: 将输入分区的RDD中的多个或一个RDD分区合并为输出分区中的RDD的一个RDD分区(不去重),输入输出RDD个数不变
union
  • cartesian: 将输入分区做笛卡尔积,RDD合并为一个,输入RDD总分区不变
cartesian

3. 多对多

  • groupBy: 根据key值整合(** 不太明白,以后补充**)
groupBy

4. 输出分区为输入分区子集

  • filter: 根据f(x)进行过滤,f(x) return true 保留,RDD分区一致
filter
  • distinct: 去重,RDD分区一致
distinct
  • subtract: 输入分区中RDD中对应的RDD分区做差积,RDD数、RDD分区数一致(** 不知道差积结果为空的情况 **)
subtract
  • simple: SampledRDD(withReplacement,fraction,seed)
    ·withReplacement=true,表示有放回的抽样;
    ·withReplacement=false,表示无放回的抽样。

5. 特殊一对一,Cache

相关文章

网友评论

      本文标题:【spark】Value型transformation算子

      本文链接:https://www.haomeiwen.com/subject/rfftyttx.html