spark入门之集群角色

作者: 万事万物 | 来源:发表于2021-07-08 07:59 被阅读0次

spark入门之集群角色
Spark注意事项
大数据开发环境搭建之Spark集群搭建
Spark集群模式概述
aws spark集群web功能
spark yarn集群搭建（三：spark集群搭建）
面试 | Spark知识点@20190102
Spark技术实战之基础篇
spark streaming + flume+python(编
Spark搭建之 Standalone集群

Master和Worker集群资源管理

Master和Worker
Master和Worker是Spark的守护进程、集群资源管理者，即Spark在特定模式下正常运行所必须的进程。

Master 类似于Yarn中的ReourceManager
Worker 类似于Yarn中的NodeManager

Master和Worker 只有 Standalone模式中采用，所以Master和Worker是运行在集群模式中的。

Master 和 Worker 启动时机
随着集群的启动而启动，随着集群的停止而消失。

Driver和Executor任务的管理者

Driver和Executor
Driver和Executor是临时程序，当有具体任务提交到Spark集群才会开启的程序。

Driver 作用:

负责任务调用，类似于 ApplicationMaster。
负责将用户写的程序转换为一个job。
如执行一个worldCount程序。

scala>sc.textFile("/opt/module/spark-local/input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

res0: Array[(String, Int)] = Array((hadoop,6), (oozie,3), (spark,3), (hive,3), (atguigu,3), (hbase,6))

跟踪所有的Executo任务状态；
是否闲置，是否接收到任务，是否完成，完成进度如何等。如果执行失败，会在其他服务器上重写执行一次（容错处理）。
负责所有执行节点的调度任务；
在job执行过程中,可以打开一个web界面，这就是UI展示。
Driver 是一个线程。

Executor作用：

负责执行spark具体的job任务。
Executor 是一个进程，他们把一个个任务交给 task(线程) 去执行。
Executor 中会有一些资源如内核数、内存等，task 会共享这些资源。

生命周期：

Driver类似于一个 ApplicationMaster；当有任务执行时会生成一个Driver，任务接收后，会申请注销自己。
Executor 同样如此，随着单个任务完成之后，而消失。

作用：
Master和Worker：只有Standalone模式中才有。
Driver和Executor：Standalone模式和YARN模式 都有。

Standalone模式

Standalone模式是Spark自带的资源调动引擎，构建一个由Master + Slave构成的Spark集群，Spark运行在集群中。

这个要和Hadoop中的Standalone区别开来。这里的Standalone是指只用Spark来搭建一个集群，不需要借助Hadoop的Yarn和Mesos等其他框架。

运行流程

Spark有standalone-client和standalone-cluster两种模式，主要区别在于：Driver程序的运行节点。

该模式是由 --deploy-mode 所指定。

--deploy-mode client \

--deploy-mode cluster \

若指定，默认为client模式。

standalone client与cluster模式的区别： Driver所在的位置不一样

Client模式: Driver在client端【spark-submit所在】,Driver就在SparkSubmit进程中,client模式不能关闭client,client关闭Driver会消失,不能进行任务分配从而导致任务失败
cluster模式: Driver可能在任意一个Worker中,可以关闭client,因为Driver与client不在一块,client关闭不影响Driver

standalone-cluster模式：

standalone cluster模式.png

1.提交程序

scala>sc.textFile("/opt/module/spark-local/input").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

创建SparkSubmit进程
在提交程序的服务器上创建一个SparkSubmit进程,在SparkSubmit进程中也会有一个客户端Client，此时在客户端中并不会启动Driver。
请求启动Driver
Client向Master 提交请求，找一个Worker启动Driver
启动Driver
Master 根据任务的资源配置找到一个Worker启动Driver
申请计算资源
Driver计算任务时需要资源（如：需要多少个executor，每个executor需要多少内存），此时会向 Master申请资源。
筛选资源充足的Worker
Master 并没有资源，但是它知道哪些Worker能满足Driver的条件。
启动对应的Executor
在资源充足的Worker中启动Executor，Executor启动好之后表示资源已经准备好了。
反向注册，申请计算任务。
于是Executor会向Driver发送反向请求，告诉它，我准备好了，你把任务给我吧。
提交Task到Executor中执行。
Driver会将Task提交到Executor中进行执行。
注销、释放资源
等待所有的Task执行完毕后，整个任务就执行完毕了，Driver向Master 提交申请注销自己。

standalone-client模式：

standalone client模式

程序运行时会创建一个SparkContext进程
该进程中会维护一个Client端，Driver便会在Client端中被创建。
Client回向Master注册任务，申请资源.
Master接收到请求之后，会根据spark-submit提交的资源参数筛选出合适的Worker
此时Worker会运行一个Executor。
Executor准备好之后，反向注册到Driver，申请任务。
此时Driver便会把Job交给Executor进行运行。
Driver等待所有的task运行完毕之后，此时便开始注销自己，释放资源。

yarn-client模式

spark on yarn client模式

程序运行时会创建一个SparkContext进程
该进程中会维护一个Client端，Driver便会在Client端中被创建。
Driver向ResuoreManager注册任务，申请运行ApplicationMaster。
ResuoreManager收到请求之后，会找到一个NodeManager启动一个ApplicationMaster。
ApplicationMaster向ResuoreManager申请资源。
ResuoreManager将会筛选出合适的NodeManager列表给ApplicationMaster。
ApplicationMaster会根据列表找到对应NodeManager，运行Executor，同时监听Executor的运行状态
Executor会反向注册到Driver中，申请运行任务。
Driver会将Job交给Executor进行运行。
等待所有的Task运行完毕之后，ApplicationMaster向ResuoreManager提交申请注销自己，释放资源。

yarn-cluster模式

spark on yarn cluster模式

yarn-client模式与 yarn-cluster模式唯一的区别在于Dirver的运行位置不同。
在yarn-cluster模式中，Dirver将会运行在ApplicationMaster运行的服务器上。

程序启动时会创建一个SparkContext进程，该进程同样维护一个Client端。
Client向ResuortManager注册任务，神奇运行ApplicationMaster。
ResuortManager会找到一台NodeManager运行ApplicationMaster。
ApplicationMaster会启动一个Driver进程。
创建完成之后ApplicationMaster向ResuortManager申请资源。
ResuortManager筛选合适的NodeManager列表给ApplicationMaster。
ApplicationMaster根据列表找到对应的NodeManager运行Executor进程
Executor反向注册到Driver中，申请任务
Driver将Job交给Executor运行
等到Driver中所有的Task任务运行完毕之后，ApplicationMaster向ResuortManager申请注销自己，释放资源。

spark入门之集群角色
Master和Worker集群资源管理 Master和WorkerMaster和Worker是Spark的守护进程...
Spark注意事项
spark快速入门要让spark在集群模式下运行，需要正确设置注意master默认要用spark master...
大数据开发环境搭建之Spark集群搭建
大数据开发环境搭建之Spark集群搭建需要四台机器 spark-2.1.0下载地址 1.集群规划: Worker...
Spark集群模式概述
该文档给出了 Spark 如何在集群上运行、使之更容易来理解所涉及到的组件的简短概述组件 Spark 应用在集群...
aws spark集群web功能
0 spark集群web功能被攻击在使用aws提供的spark集群时，经常会用到spark集群的web功能，以便...
spark yarn集群搭建（三：spark集群搭建）
spark yarn集群搭建（一：准备工作） spark yarn集群搭建（二：hadoop集群搭建） Maste...
面试 | Spark知识点@20190102
Spark基本架构从集群部署的角度来看，Spark集群由集群管理器（Cluster Manager）、工作节点（...
Spark技术实战之基础篇
Spark技术实战之基础篇 -Scala语言从入门到精通为什么要学习Scala?源于Spark的流行，Spark是...
spark streaming + flume+python(编
一、环境部署 hadoop集群2.7.1flume 1.7.0spark集群：spark-2.0.1-bin-ha...
Spark搭建之 Standalone集群
本文主线系统 => 集群 => 测试本文基于Spark搭建之单机模式[https://blog.nuozh...