美文网首页
spark MS题

spark MS题

作者: hehehehe | 来源:发表于2023-02-09 17:46 被阅读0次

spark有哪些组件

master:管理集群和节点,不参与计算。
worker:计算节点,进程本身不参与计算,和master汇报。
Driver:运行程序的main方法,创建spark context对象。
spark context:控制整个application的生命周期,包括dagsheduler和task scheduler等组件。
client:用户提交程序的入口。

Spark中的基本概念

1)Application:表示你的应用程序
2)Driver:表示main()函数,创建SparkContext。由SparkContext负责与ClusterManager通信,进行资源的申请,任务的分配和监控等。程序执行完毕后关闭SparkContext
3)Executor:某个Application运行在Worker节点上的一个进程,该进程负责运行某些task,并且负责将数据存在内存或者磁盘上。在Spark on Yarn模式下,其进程名称为 CoarseGrainedExecutor Backend,一个CoarseGrainedExecutor Backend进程有且仅有一个executor对象,它负责将Task包装成taskRunner,并从线程池中抽取出一个空闲线程运行Task,这样,每个CoarseGrainedExecutorBackend能并行运行Task的数据就取决于分配给它的CPU的个数。
4)Worker:集群中可以运行Application代码的节点。在Standalone模式中指的是通过slave文件配置的worker节点,在Spark on Yarn模式中指的就是NodeManager节点。
5)Task:在Executor进程中执行任务的工作单元,多个Task组成一个Stage
6)Job:包含多个Task组成的并行计算,是由Action行为触发的
7)Stage:每个Job会被拆分很多组Task,作为一个TaskSet,其名称为Stage
8)DAGScheduler:根据Job构建基于Stage的DAG,并提交Stage给TaskScheduler,其划分Stage的依据是RDD之间的依赖关系
9)TaskScheduler:将TaskSet提交给Worker(集群)运行,每个Executor运行什么Task就是在此处分配的。

Spark程序运行流程

通过 spark-submit 进行提交。最终转交给 SparkSubmit.class,通过提交模式可以找到对应的客户端启动类。这个客户端类启动好了之后,执行一些参数解析,执行 Jar 包处理等相关准备动作之后,就发送请求(ApplicationRegistion)给对应的资源调度系统的节点 Master。Master 首先找到一个空闲节点,来启动 Driver

Driver执行main方法 创建一个SparkContext,由SparkContext负责和资源管理器(Cluster Manager)的通信以及进行资源的申请、任务的分配和监控等。SparkContext会向资源管理器注册并申请运行Executor的资源;
(2)资源管理器为Executor分配资源,并启动Executor进程,Executor运行情况将随着“心跳”发送到资源管理器上;
(3)SparkContext根据RDD的依赖关系构建DAG图,DAG图提交给DAG调度器(DAGScheduler)进行解析,将DAG图分解成多个“阶段”(每个阶段都是一个任务集),并且计算出各个阶段之间的依赖关系,然后把一个个“任务集”提交给底层的任务调度器(TaskScheduler)进行处理;Executor向SparkContext申请任务,任务调度器将任务分发给Executor运行,同时,SparkContext将应用程序代码发放给Executor;
(4)任务在Executor上运行,把执行结果反馈给任务调度器,然后反馈给DAG调度器,运行完毕后写入数据并释放所有资源。

相关文章

  • Spark 题

    Spark题spark面试总结

  • KafkaReceiver 之timeout

    zookeeper.session.timeout.ms:该值超时的话, spark的当前kafkaReceive...

  • Spark面试题整理

    整理来源:《Spark面试2000题》 目录Spark section-0 基础 (3)Spark section...

  • Spark--SparkCore面试知识点总结

    整理于【Spark面试2000题】Spark core面试篇03 ,梅峰谷大数据 1.Spark使用parquet...

  • 我们的生活

    题 Ms 自己配图哦哦咯哦哦

  • Spark 题

    spark-submit的时候如何引入外部jar包 在通过spark-submit提交任务时,可以通过添加配置参数...

  • 2020浪潮笔试

    第一题: 石头时间限制:C / C + +语言1000MS;其他语言3000MS内存限制:C / C + +语言1...

  • MS-智力题

    假设有一个池塘,里面有无穷多的水。现有2个空水壶,容积分别为5升和6升。问题是如何只用这2个水壶从池塘里取得3升的...

  • spark题09

    1.给定a、b两个文件,各存放50亿个url,每个url各占64字节,内存限制是4G,让你找出a、b文件共同的ur...

  • spark题05

    1.scala中private 与 private[this] 修饰符的区别? private[包名],priva...

网友评论

      本文标题:spark MS题

      本文链接:https://www.haomeiwen.com/subject/rhlhkdtx.html