美文网首页
groupByKey ()根据key聚合

groupByKey ()根据key聚合

作者: yayooo | 来源:发表于2019-07-30 21:25 被阅读0次

一定会有shuffer,因为不能保证相同的key的数据在同一个分区中。


groupByKey
package com.atguigu

import org.apache.spark.rdd.RDD
import org.apache.spark.{HashPartitioner, Partitioner, SparkConf, SparkContext}

object Trans {
  def main(args: Array[String]): Unit = {

    val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("Spark01_Partition")
    //构建spark上下文对象
    val sc = new SparkContext(conf)

   val rdd: RDD[(String, Int)] = sc.makeRDD(Array(("aaa",1),("cc",2),("b",4),("b",1),("b",1)))
    val rdd2: RDD[(String, Iterable[Int])] = rdd.groupByKey()
    rdd2.collect().foreach(println)

    sc.stop()
  }
}

(cc,CompactBuffer(2))
(aaa,CompactBuffer(1))
(b,CompactBuffer(4, 1, 1))

相关文章

  • groupByKey ()根据key聚合

    一定会有shuffer,因为不能保证相同的key的数据在同一个分区中。 (cc,CompactBuffer(2))...

  • 如何使用spark实现topN的获取

    方法1:按照key对数据进行聚合(groupByKey)将value转换为数组,利用sortBy或者sortWit...

  • aggregateByKey()() 根据key聚合

    源码: aggregateByKey()()使用了函数柯里化 存在两个参数列表1)第一个参数列表表示分区内计算时的...

  • Spark - 实现TopN

    经典面试题两种方式 方式一 1.按照key对数据进行聚合(groupByKey)2.将value转换为数组,利用s...

  • Spark快速入门(3) 核心概念和抽象:Transformat

    这一节我们会继续介绍和key相关的transformations算子。 GroupByKey GroupByKey...

  • 分组与聚合

    分组与聚合 GroupBy对象 dataframe根据key1进行分组 data1列根据key1进行分组 分组运算...

  • reduceByKey和countByKey区别

    相同点: 两者都会根据key来分组 不同点:reduceByKey会根据用户传入的聚合逻辑对数组内的数据进行聚合,...

  • Java Map常用操作记录

    merge操作 字典合并, 新的key无则插入, 有则根据条件更新, 相当于对字典的key做聚合操作

  • doris表语句

    DDL 表模型 AGGREGATE KEY (聚合表) [注] AGGREGATE KEY字段必须全都一样才能聚合...

  • groubyKey和reduceBykey的区别

    groupBykey:不会预聚合数据,也就是直接将数据经过shuffle给下一个阶段,性能较慢reduceByKe...

网友评论

      本文标题:groupByKey ()根据key聚合

      本文链接:https://www.haomeiwen.com/subject/vmjnrctx.html