SparkShuffle两种机制

SparkShuffle两种机制

作者: 乔一波一 | 来源:发表于2019-03-16 14:48 被阅读0次

SparkShuffle两种机制
sparkshuffle
PCIe 均衡机制-转
Spark之SortShuffle
Shuffle的细节，重要的操作
Redis的持久化机制与内存管理机制
Java并发编程高级篇(四)：运行多个任务并处理第一个结果
Redis的两种持久化介绍与对比
Redis的持久化机制是什么？各自的优缺点？
volatile 多线程运用

1.HashShuffleManager(spark1.6之前)

普通的HashShuffleManager机制

普通HashShuffleManager机制

1)每个task有独立的buffer内存,根据reduce下一个stage 并行度的数量,产生3个(此处)buffer缓冲区;运算数据求hashcode对下一个stage并行度取余,进入对应的buffer缓冲区,buffer默认大小32k,满即溢写磁盘,一个buffer缓冲区对应一个blockfile磁盘文件;

2)所以map端的磁盘小文件的个数由 map端stage并行度和reduce端stage并行度决定;

缺点:

小文件个数多,需要大量的IO时间;

小文件过多,网络IO容易因为网络延迟出错;

容易造成reduce端OOM;

优化的HashShuffleManager机制

优化HashShuffleManager机制

1) 优化的HashShuffleManager 串行的一组task共享一个buffer内存,对比原来,优化后,一个核只会产生对应下一个stage 并行度的buffer缓冲区,落地磁盘的小文件也少了许多;

2) 优化后,大大减少了map 端磁盘小文件的数量,减少了IO的压力

3) 但是当map端stage的核数和reduce stage的并行度都很高的时候,IO还是很费时间;

2.SortShuffle(spark1.6之后)

SortShuffle的运行机制主要分成两种： – 普通运行机制 – bypass运行机制

普通运行机制

SortShuffleManager 普通机制

1) :每一个task有一块大小为5M的内存缓冲区,缓冲区达到阈值时,落地磁盘过程中会排序聚合(即map端会有预聚合),最后落地到磁盘有两个磁盘文件,一个是数据文件,一个索引文件方便加快访问数据;

2) map 端磁盘小文件的数量为2倍的task数量;

3) reduce 端正常的shuffle read;

bypass运行机制

SortShuffleManager byPass机制

1) bypass 相对于普通的SortShuffleManager 机制,减少了map端的排序预聚合;

bypass机制开启条件:

1.map端没有预聚合

2.分区数要小于 spark.shuffle.sort.bypassMergeThreshold = 200

相关文章

SparkShuffle两种机制
1.HashShuffleManager(spark1.6之前) 普通的HashShuffleManager机制 ...
sparkshuffle
sparkshuffle是什么？哪些情况会产生sparkshuffle？ reduceByKey、groupBy...
PCIe 均衡机制-转
3.1.1 两种均衡机制 PCIe 协议定义了两种均衡机制：自动均衡与软件均衡机制，接下来分别介绍这两种均衡机制。...
Spark之SortShuffle
SortShuffleManager两种运行机制 SortShuffleManager的运行机制主要分成两种，一种...
Shuffle的细节，重要的操作
SparkShuffle 以Shuffle为边界，Spark将一个Job划分为不同的Stage，这些Stage构成...
Redis的持久化机制与内存管理机制
1、概述 Redis的持久化机制有两种：RDB 和 AOF ，这两种机制有什么区别？正式环境应该采用哪种机制？我...
Java并发编程高级篇(四)：运行多个任务并处理第一个结果
接下来，我们来模拟一个用户验证过程，提供两种验证机制，任何一种验证机制验证成功即可通过验证，而不用等两种验证机制都...
Redis的两种持久化介绍与对比
本文大纲： RDB和AOF两种持久化机制的介绍 RDB持久化机制的优点 RDB持久化机制的缺点 AOF持久化机制的...
Redis的持久化机制是什么？各自的优缺点？
Redis 提供两种持久化机制 RDB 和 AOF 机制: 1、RDBRedis DataBase)持久化方式：是...
volatile 多线程运用
Java含两种内在的同步机制：同步块（或方法）和 volatile 变量。这两种机制的提出都是为了实现代码线程的安...

网友评论

本文标题：SparkShuffle两种机制

本文链接：https://www.haomeiwen.com/subject/frfsmqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|SparkShuffle两种机制|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！