Spark Shuffle 机制解析

Spark Shuffle 机制解析

作者: 光剑书架上的书 | 来源:发表于2021-09-18 01:12 被阅读0次

Spark Shuffle 机制解析
Spark Shuffle 模块② - Hash Based S
【Spark】Spark 存储原理--shuffle 过程
MapReduce过程、Spark和Hadoop以Shuffle
【Spark】Spark的Shuffle机制
Spark Shuffle
Spark Shuffle 模块③ - Sort Based S
Spark shuffle机制概述
hadoop(mapreduce) shuffle
解决Spark数据倾斜(二) 使用Map侧Join代替Reduc

1. 什么是 Shuffle

当一个父 RDD 分区的数据分散到了多个子 RDD 的分区中时，这时会产生 Shuffle，即宽依赖之间会有 Shuffle。

Reduce Task 去拉取 Map Task 数据的时候会产生大量的网络、磁盘 IO、内存的消耗，Shuffle 性能的高低对整体任务的性能影响很大。
Shuffle 通常分为两个阶段，Map 阶段数据的准备及划分，Reduce 阶段数据的拉取。Map 端的 Shuffle 通常被称作 Shuffle Write，Reduce 端的 Shuffle 通常被称作 Shuffle Read。

2. Shuffle 管理器的发展史

Spark 1.2 之前 Shuffle 使用的计算引擎是 HashShuffleManager，这种方式虽然快速，但是会产生大量的文件，如果有 M 个 Mapper，N 个 Reducer 就会产生 M * N 个文件，如果 Mapper 和 Reducer 的数量很庞大将会带来性能上的影响。
Spark 1.2 之后引入了 SortShuffleManager，这种方式 Reduce 端需要读取的文件更少，因为 Map 端的每个 Task 最后会将临时文件合并成一个文件，并且会对 Map 端的数据进行排序，并生成记录数据位置的索引文件，Reducer 可以通过索引找到自己要拉取的数据，它也是 Spark 默认使用的 Shuffle 管理器。
Spark 2.0 之后移除了 HashShuffleManager，目前 ShuffleManager 只有 SortShuffleManager 这一个实现类。

3. SortShuffleManager 解析

SortShuffleManager 有两种运行机制，一种是普通机制，另一种是 bypass 机制。

3.1.普通机制解析

Shuffle Write 阶段会先将数据写入内存数据结构中，如果是聚合类型的算子 (reduceByKey)，采用 Map 数据结构，先用 Map 进行预聚合处理，再写入内存中；如果是普通的 shuffle 算子的话 (join)，采用 Array 数据结构，直接写入内存。
当内存达到阈值的时候，会将这些内存中的数据进行排序，然后分批次写入磁盘文件 (默认 1W/批)，这里并不会直接写入磁盘，会先写入内存缓冲流中，当缓冲流满溢之后，写入磁盘文件。
最后会将每个 Task 写出的文件进行合并，最终生成一份数据文件和一份索引文件，索引文件记录了 Shuffle Read 阶段每个 Task 要读取的数据在文件中对应的开始和结束位置。

普通机制

3.2.bypass 机制解析

Shuffle Write 阶段会对每个 Task 数据的 key 进行 hash，相同 hash 的 key 会被写入同一个内存缓冲区，缓冲区满溢后会写到磁盘文件中。
最后会将每个 Task 写出的磁盘文件进行合并，并创建索引文件 (与普通机制下的索引文件作用相同)。

bypass 机制

3.3.bypass 机制开启条件

shuffle read task 的数量小于等于 spark.shuffle.sort.bypassMergeThreshold 参数设置的阈值的时候，默认是 200。
触发 shuffle 的算子不能是聚合类算子，比如 reduceByKey(在 Map 端对每一个 Task 的 key 会先进行一次预聚合处理)。

4. SortShuffleManager 两种机制的区别

在将数据写入内存缓冲区的时候，普通机制要先将数据写入 Map 或者 Array 的内存数据结构中，而 bypass 机制是根据 key 的 hash 值直接写入内存缓冲区中。
bypass 机制在写入内存缓冲区之前没有对数据的排序操作，因此在 reduce task 比较少的情况下，开启 bypass 机制，不需要对数据排序，节省运算性能。

相关文章

Spark Shuffle 机制解析
1. 什么是 Shuffle 当一个父 RDD 分区的数据分散到了多个子 RDD 的分区中时，这时会产生 Shuf...
Spark Shuffle 模块② - Hash Based S
Spark 2.0 中已经移除 Hash Based Shuffle，但作为曾经的默认 Shuffle 机制，还是...
【Spark】Spark 存储原理--shuffle 过程
本篇结构： Spark Shuffle 的发展 Spark Shuffle 中数据结构 Spark Shuffle...
MapReduce过程、Spark和Hadoop以Shuffle
mapreduce与Spark的map-Shuffle-reduce过程 mapreduce过程解析（mapred...
【Spark】Spark的Shuffle机制
MapReduce中的Shuffle 在MapReduce框架中，shuffle是连接Map和Reduce之间的桥...
Spark Shuffle
Spark 内存管理和消费模型 Spark Shuffle 过程 Spark Shuffle OOM 可能性分析 ...
Spark Shuffle 模块③ - Sort Based S
Spark Shuffle 模块③ - Sort Based Shuffle write 本文为 Spark 2....
Spark shuffle机制概述
shuffle及Spark shuffle历史简介 shuffle，中文意译“洗牌”，是所有采用map-reduc...
hadoop(mapreduce) shuffle
本文主要想梳理下spark的四种shuffle机制。但是在说spark之前还是很有必要把mapreduce的shu...
解决Spark数据倾斜(二) 使用Map侧Join代替Reduc
原理通过Spark的Broadcast机制，将Reduce侧Join转化为Map侧Join，避免Shuffle从...

网友评论

本文标题：Spark Shuffle 机制解析

本文链接：https://www.haomeiwen.com/subject/kblegltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|Spark Shuffle 机制解析|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！