面试 | Spark知识点@20190101

面试 | Spark知识点@20190101

作者: digger30 | 来源:发表于2019-01-01 19:00 被阅读24次

面试 | Spark知识点@20190101
面试题汇总：Spark
Spark面试知识点
Spark 题
数据挖掘之Spark学习
Spark--SparkCore面试知识点总结
面试 | Spark知识点@20190103
面试 | Spark知识点@20190102
面试 | Spark知识点@20190104
面试 | Spark知识点@20190105

Spark有那几种部署模式，每种模式特点是什么？

本地模式：spark可以不跑在hadoop集群上，可以通过在本地启动多个线程方式来执行。一般使用该模式进行都是进行调试。本地模式包括以下三种方式：
- local：只启动一个executor
- local[k]：启动k个executor
- local[*]：启动跟cpu数目相同个数的executor
standalone：分布式部署集群，自带完整的服务，资源管理和任务监控都由Spark自己完成。这个模式也是其他模式的基础
Spark on YARN：分布式部署集群，资源和任务监控交给YARN管理，但是目前仅支持粗粒度度资源分配方式，包括cluster和client运行模式，cluster适合生产。driver运行在集群的子节点，具有容错功能；Client适合调试，Driver运行在客户端（提交任务的机器）
Spark on Mesos：Spark运行Mesos上比在YARN上更加灵活，更加自然。用户有两种调度模式可以选择：
- 粗粒度模式（Coarse-grained Mode）：每个应用程序的运行环境由一个Driver和若干个Executor组成。其中，每个Executor占用若干资源，内部可以运行多个Task。应用程序的各个任务正式运行之前，需要将运行环境中的资源全部申请好，且运行过程中要一直占用这些资源，即使不用，直到最后程序运行结束，才会回收这些资源。
- 细粒度模式（Fine-grained Mode）：粗粒度模式会造成大量资源浪费，Spark还提供了细粒度调度模式，这种模式的思想就是按需分配。

Spark Driver的功能是什么？

一个Spark作业运行时包括一个Driver进程，也就是作业的主进程，具有main函数，并且有SparkContext的实例，是程序的入口点。

功能：负责向集群申请资源，向master注册信息、负责作业调度，作业解析，生成Stage并调度Task到Executor上。

Spark为什么比MapReduce要快？

Spark基于内存计算，减少了低效的磁盘交互
- MapReduce的中间结果保存在文件中，提高了可靠性，减少了内存的占用，但是牺牲了性能
- Spark的数据在内存中进行交换，而且Spark在Shuffle的时候不一定落盘，可以cache到内存中，一遍迭代时使用，所以性能比MapReduce要高
Spark具有高效的调度算法（DAG计算模型）
Spark的DAG计算模型在迭代计算上效率要高于MapReduce。DAG比MapReduce在大多数情况下可以减少shuffle次数，Spark的DAG相当于一个改进版的MapReduce，如果计算不涉及其他节点进行数据交换，Spark可以在内存中一次性完成这些操作，也就是中间结果无需落盘，减少了磁盘IO的操作。
JVM优化
Hadoop每次MapReduce操作，启动一个Task便会启动一次JVM。而Spark每次MapReduce操作是基于线程的，只在启动Executor的时候启动一次JVM，内存的Task操作是在线程复用的。

相关文章

面试 | Spark知识点@20190101
Spark有那几种部署模式，每种模式特点是什么？本地模式：spark可以不跑在hadoop集群上，可以通过在本地...
面试题汇总：Spark
1.《spark相关面试题》 2.《spark面试总结》 3.《spark精华面试题》 4.《Spark Core...
Spark面试知识点
一.Spark架构 1.Spark架构中的组件 2.spark架构揭示了spark的具体流程如下：二.RDD 1...
Spark 题
Spark题spark面试总结
数据挖掘之Spark学习
阅读路线: Hadoop与Spark比较 Spark的安装 Spark知识点一、Hadoop与Spark比较简...
Spark--SparkCore面试知识点总结
整理于【Spark面试2000题】Spark core面试篇03 ，梅峰谷大数据 1.Spark使用parquet...
面试 | Spark知识点@20190103
RDD、DataFrame和DataSet RDD是Spark最早的数据模型，叫做弹性分布式数据集。它是Spark...
面试 | Spark知识点@20190102
Spark基本架构从集群部署的角度来看，Spark集群由集群管理器（Cluster Manager）、工作节点（...
面试 | Spark知识点@20190104
RDD cache 当持久化某个RDD后，每一个节点都将把计算的分片结果保存在内存中，并在对此RDD或衍生出的RD...
面试 | Spark知识点@20190105
Spark中持久化和容错checkpint的区别 checkpoint是考虑安全性，RDD可以使用persist或...

网友评论

本文标题：面试 | Spark知识点@20190101

本文链接：https://www.haomeiwen.com/subject/exqolqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|面试 | Spark知识点@20190101|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！