美文网首页
spark - 数据倾斜

spark - 数据倾斜

作者: 良人与我 | 来源:发表于2019-02-08 22:51 被阅读4次

spark 是否会产生数据倾斜?
会的。比如单词统计,如果某个单词的量非常之巨大,聚合到同一个节点的时候它的数据就会非常大。这样就会发生数据倾斜。

解决办法
可以为 单词拼接 后缀 _x(x 为随机数)
这样混洗的时候 即使是同一个单词也会因为不同后缀的缘故分配到不同节点。

代码实现如下:

JavaPairRDD<String,Integer> rdd1 = sc.textFile(filePaht)
                .flatMap( s -> Arrays.asList(s.split(" ")).iterator())
                .filter(t->StringUtils.isNoneBlank(t))
                .mapToPair(s -> new Tuple2<>(s+"_"+RandomUtils.nextInt(0,100), 1))
                .reduceByKey((v1,v2)-> (v1+v2))
                .mapToPair(t-> new Tuple2<>(t._1.substring(0,t._1.indexOf('_')), t._2))
                .reduceByKey((v1,v2)-> (v1+v2));
        rdd1.collect().forEach(t-> System.out.println(t + " " + Thread.currentThread()));
    

相关文章

  • 数据倾斜(五):Spark是如何解决数据倾斜的

    Spark数据倾斜表现 Spark数据倾斜原理 Spark数据倾斜例子 Spark数据倾斜解决方案 七、Spark...

  • 5W字总结Spark(三)(建议收藏)

    八、Spark 数据倾斜 详见: 八种解决 Spark 数据倾斜的方法https://www.jianshu.co...

  • Spark解决数据主键key倾斜的思路

    Spark解决数据主键key倾斜的思路 0. 数据倾斜 概念 对Spark/Hadoop这样的大数据系统来讲,数据...

  • spark 优化 分析方向 (数据倾斜)

    第2章 Spark数据倾斜 Spark中的数据倾斜问题主要指shuffle过程中出现的数据倾斜问题,是由于不同的k...

  • 可视化发现Spark数据倾斜

    用spark做大数据处理,不怕数据大,就怕发生数据倾斜,一发生数据倾斜,轻则spark job要跑很久才能结束,重...

  • Spark 调优之数据倾斜

    什么是数据倾斜? Spark 的计算抽象如下 数据倾斜指的是:并行处理的数据集中,某一部分(如 Spark 或 K...

  • spark 数据倾斜

    转自: https://tech.meituan.com/spark-tuning-pro.html 数据倾斜调优...

  • spark数据倾斜

    一、数据倾斜 数据倾斜一般发生在对数据进行重新划分以及聚合的处理过程中。执行Spark作业时,数据倾斜一般发生在s...

  • Spark数据倾斜

    常见的数据倾斜是怎么造成的?Shuffle的时候,将各个节点上相同的key拉取到某个节点的一个task进行处理,比...

  • spark - 数据倾斜

    spark 是否会产生数据倾斜?会的。比如单词统计,如果某个单词的量非常之巨大,聚合到同一个节点的时候它的数据就会...

网友评论

      本文标题:spark - 数据倾斜

      本文链接:https://www.haomeiwen.com/subject/mbfzhqtx.html