美文网首页
1.5.1.4 Spark算子详解(总览)

1.5.1.4 Spark算子详解(总览)

作者: 寒暄_HX | 来源:发表于2020-03-29 17:19 被阅读0次

    总目录:https://www.jianshu.com/p/e406a9bc93a9

    Hadoop - 子目录:https://www.jianshu.com/p/9428e443b7fd

    算子的分类

    从大方向来说,算子有两种类型,对应着sparkRDD的两种操作--转换类型操作和动作类型操作。也就是:

    • Transformation
      转换类型操作,这种变换并不触发提交作业,完成作业中间过程处理。
      Transformation算子是延迟计算的,也就是说从一个RDD 转换生成另一个 RDD 的转换操作不是马上执行,需要等到有 Action 操作的时候才会真正触发运算。

    • Action
      动作类型操作,这类算子会触发 SparkContext 提交 Job 作业。
      Action 算子会触发 Spark 提交作业,并将数据输出 Spark系统。

    如果在细致划分一下,转换类型算子由两种类型:针对于value数据的Transformation算子和针对K-V数据的Transformation算子。


    Value数据类型的Transformation算子

    输入分区与输出分区一对一型
    • map算子
    • flatMap算子
    • mapPartitions算子
    • glom算子
    输入分区与输出分区多对一型
    • union算子
    • cartesian算子
    输入分区与输出分区多对多型
    • grouBy算子
    输出分区为输入分区子集型
    • filter算子
    • distinct算子
    • subtract算子
    • sample算子
    • takeSample算子
    Cache型
    • cache算子
    • persist算子

    Key-Value数据类型的Transfromation算子

    输入分区与输出分区一对一
    • mapValues算子
    对单个RDD或两个RDD聚集
    单个RDD聚集
    • combineByKey算子
    • reduceByKey算子
    • partitionBy算子
    两个RDD聚集
    • Cogroup算子
    连接
    • join算子
    • leftOutJoin和 rightOutJoin算子

    Action算子

    无输出
    • foreach算子
    HDFS
    • saveAsTextFile算子
    • saveAsObjectFile算子
    聚合算子
    • collect算子
    • collectAsMap算子
    • reduceByKeyLocally算子
    • lookup算子
    • count算子
    • top算子
    • reduce算子
    • fold算子
    • aggregate算子

    相关文章

      网友评论

          本文标题:1.5.1.4 Spark算子详解(总览)

          本文链接:https://www.haomeiwen.com/subject/tueuuhtx.html