为什么Spark比MapReduce快？

为什么Spark比MapReduce快？

作者: 王勇1024 | 来源:发表于2020-10-28 17:54 被阅读0次

为什么Spark比MapReduce快？
为什么Spark比MapReduce快？
Spark基本架构及原理
Spark编程模型
SPARK[star]
spark与mapreduce
Hadoop系列-MapReduce小例子
找分布式工作复习学习系列---市面分布式框架解析之Ray（四）
Spark相关面试问题整理
基于YARN的SPARK管理过程

作者：大数据技术架构
链接：https://www.zhihu.com/question/31930662/answer/1247877997

通常大家只是说Spark是基于内存计算的，速度比MapReduce要快。或者说内存中迭代计算。其实我们要抓住问题的本质。总结有以下几点：

1、Spark vs MapReduce ≠ 内存 vs 磁盘
其实Spark和MapReduce的计算都发生在内存中，区别在于：MapReduce通常需要将计算的中间结果写入磁盘，然后还要读取磁盘，从而导致了频繁的磁盘IO。Spark则不需要将计算的中间结果写入磁盘，这得益于Spark的RDD（弹性分布式数据集，很强大）和DAG（有向无环图），其中DAG记录了job的stage以及在job执行过程中父RDD和子RDD之间的依赖关系。中间结果能够以RDD的形式存放在内存中，且能够从DAG中恢复，大大减少了磁盘IO。
2、Spark vs MapReduce Shuffle的不同
Spark和MapReduce在计算过程中通常都不可避免的会进行Shuffle，两者至少有一点不同：MapReduce在Shuffle时需要花费大量时间进行排序，排序在MapReduce的Shuffle中似乎是不可避免的；Spark在Shuffle时则只有部分场景才需要排序，支持基于Hash的分布式聚合，更加省时；
3、多进程模型 vs 多线程模型的区别
MapReduce采用了多进程模型，而Spark采用了多线程模型。多进程模型的好处是便于细粒度控制每个任务占用的资源，但每次任务的启动都会消耗一定的启动时间。就是说MapReduce的Map Task和Reduce Task是进程级别的，而Spark Task则是基于线程模型的，就是说mapreduce 中的 map 和 reduce 都是 jvm 进程，每次启动都需要重新申请资源，消耗了不必要的时间（假设容器启动时间大概1s，如果有1200个block，那么单独启动map进程事件就需要20分钟）Spark则是通过复用线程池中的线程来减少启动、关闭task所需要的开销。（多线程模型也有缺点，由于同节点上所有任务运行在一个进程中，因此，会出现严重的资源争用，难以细粒度控制每个任务占用资源）

总结：关于Spark为什么比MapReduce快，或者Spark速度快于MapReduce的原因，总结至少有这几点不同之处吧。

相关文章

为什么Spark比MapReduce快？
MapReduce慢是因为模型很呆板 ,频繁的Io操作 Spark快的话不仅是因为它是内存迭代计算吧？具体什么...
为什么Spark比MapReduce快？
作者：大数据技术架构链接：https://www.zhihu.com/question/31930662/answ...
Spark基本架构及原理
Hadoop 和 Spark 的关系 Spark 运算比 Hadoop 的 MapReduce 框架快的原因是因为...
Spark编程模型
Spark简述下图是Spark和MapReduce进行逻辑回归机器学习的性能比较，Spark比MapReduce...
SPARK[star]
AMPAlgorithms 算法Machines 机器people 人 spark较mapreduce快100...
spark与mapreduce
spark与mapreduce之间的选择。简单来说，spark的优势是快，同样的任务，spark几分钟跑出来，MR...
Hadoop系列-MapReduce小例子
Spark卡壳了，有点费劲，先把MapReduce学回来才开始Spark，基本上Spark是替换MapReduce...
找分布式工作复习学习系列---市面分布式框架解析之Ray（四）
一、背景 Ray 的设计目标是比 Spark 、MapReduce 数据流更灵活，比 Orleans 等 Acto...
Spark相关面试问题整理
Spark和MapReduce的区别？Spark和MapReduce都是分布式计算框架，都是采用map-reduc...
基于YARN的SPARK管理过程
基于YARN的SPARK管理过程前言 MapReduce与Spark中Job概念的区别在MapReduce中的...

网友评论

Spark

本文标题：为什么Spark比MapReduce快？

本文链接：https://www.haomeiwen.com/subject/kkscvktx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

Spark

为什么Spark比MapReduce快？

关于我们|服务条款|联系我们|为什么Spark比MapReduce快？|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！