1.常用行动算子
import org.apache.spark.{SparkConf, SparkContext}
object Test9 {
def main(args: Array[String]): Unit = {
val sc = new SparkContext(new SparkConf().setAppName("test10").setMaster("local[*]"))
val rdd = sc.makeRDD(List(4, 5, 6, 1, 2, 3))
//reduce聚合
println(rdd.reduce(_ + _))
//collect 收集返回数组类型
val ints: Array[Int] = rdd.collect()
println(ints.mkString(","))
//count求总的次数
//sum算子在excutor进行相加,返回结果最后在Driver端相加
println(rdd.count())
println(rdd.sum())
//获取第一个
println(rdd.first())
//获取前topN
val ints1: Array[Int] = rdd.take(2)
println(ints1.mkString(","))
//获取排序过的topN
rdd.takeOrdered(3).foreach(println)
//排序,指定排序规则
rdd.takeOrdered(3)(Ordering.Int.reverse).foreach(println)
//
val intToLong: collection.Map[Int, Long] = rdd.countByValue()
println(intToLong)//Map(5 -> 1, 1 -> 1, 6 -> 1, 2 -> 1, 3 -> 1, 4 -> 1)
}
}
2.辨析aggregateByKey(转换算子) aggregate(行动算子)
(注意初始值参与分区内和分区间对于行动算子),(注意初始值在分区内调用的次数,,发现转换算子是一个组调用一次,行动算子是一个分区调用一个,最后聚合的时候再次调用一次,当分区内和分区间的需求一致时使用fold代替)
import org.apache.spark.{SparkConf, SparkContext}
object Test8 {
def main(args: Array[String]): Unit = {
val sc: SparkContext = new SparkContext(new SparkConf().setAppName("test5").setMaster("local[*]"))
var rdd =sc.makeRDD(List(("A",11),("B",11),("C",11),("A",111)),2)
//初始值参与每个区内的每个组的运算,
//组的粒度的聚合
rdd.aggregateByKey(10)(_+_,_+_).collect.foreach(println)
//初始值参与分区内和分区间
//全局聚合
val result = rdd.aggregate(10)((x, y) => x + y._2, (x1, x2) => x1 + x2)
println(result)
sc.stop()
}
}
val sc: SparkContext = new SparkContext(new SparkConf().setAppName("test5").setMaster("local[*]"))
var rdd = sc.makeRDD(List(1,2,3,4),2)
val result: Int = rdd.aggregate(10)(_ + _, _ + _)
println(result)//40
sc.stop()
网友评论