美文网首页
RDD 常用action算子和transformation算子

RDD 常用action算子和transformation算子

作者: 邵红晓 | 来源:发表于2019-10-14 18:08 被阅读0次

    常用action算子

    • foreach
    • reduce
    • collect:在driver程序中,以数组的形式返回数据集的所有元素(这个操作会拉去所有数据到driver慎用)
    • count
    • first
    • take
    • fold
    • takeSample(withReplacement,num, [seed])
      返回一个数组,该数组由从数据集中随机采样的num个元素组成,可以选择是否用随机数替换不足的部分,seed用于指定随机数生成器种子
    • takeOrdered(n) 返回前几个的排序
    • countBykey
      针对(K,V)类型的RDD,返回一个(K,Int)的map,表示每一个key对应的元素个数。
    scala> val rdd = sc.parallelize(List((1,3),(1,2),(1,4),(2,3),(3,6),(3,8)),3)
    rdd: org.apache.spark.rdd.RDD[(Int, Int)] = ParallelCollectionRDD[95] at parallelize at <console>:24
    scala> rdd.countByKey()
    res63: scala.collection.Map[Int,Long] = Map(3 -> 2, 1 -> 3, 2 -> 1)
    
    • saveAsxxx

    常用Transformation算子

    • groupBykey
    • reduceBykey
    • sortByKey
    • sortBy
    • join union
    • sample
    • repartition
    • map filter flatMap ...

    相关文章

      网友评论

          本文标题:RDD 常用action算子和transformation算子

          本文链接:https://www.haomeiwen.com/subject/uhxdmctx.html