美文网首页spark||flink||scala
spark系统实现yarn资源的自动调度

spark系统实现yarn资源的自动调度

作者: 达微 | 来源:发表于2019-11-11 17:32 被阅读0次

参考:

http://blog.csdn.net/dandykang/article/details/48160953

对于Spark应用来说,资源是影响Spark应用执行效率的一个重要因素。当一个长期运行 的服务(比如Thrift Server),若分配给它多个Executor,可是却没有任何任务分配给它,而此时有其他的应用却资源张,这就造成了很大的资源浪费和资源不合理的调度。
动态资源调度就是为了解决这种场景,根据当前应用任务的负载情况,实时的增减 Executor个数,从而实现动态分配资源,使整个Spark系统更加健康。

配置步骤:

1. 需要先配置External shuffle service。参见spark on yarn(External shuffle service)配置

2. 在“spark-defaults.conf”中必须添加配置项“spark.dynamicAllocation.enabled”,并将该参数的值设置为“true”,表示开启动态资源调度功能。默认情况下关闭此功能。

3. 根据情况配置一些可选参数

以下是基本配置参考 spark集群设置或者任务中设置sparkConf

spark.shuffle.service.enabled true 配置External shuffle Service服务(一定要配置启用)

spark.shuffle.service.port 7337

spark.dynamicAllocation.enabled true 启用动态资源调度

spark.dynamicAllocation.minExecutors 3 每个应用中最少executor的个数

spark.dynamicAllocation.maxExecutors 8 每个应用中最多executor的个数

可选参数说明:

配置项 说明 默认值

spark.dynamicAllocation.minExecutors 最小Executor个数。 0

spark.dynamicAllocation.initialExecutors 初始Executor个数。 spark.dynamicAllocation.minExecutors

spark.dynamicAllocation.maxExecutors 最大executor个数。 Integer.MAX_VALUE

spark.dynamicAllocation.schedulerBacklogTimeout 调度第一次超时时间。 1(s)

spark.dynamicAllocation.sustainedSchedulerBacklogTimeout 调度第二次及之后超时时间。 spark.dynamicAllocation.schedulerBacklogTimeout

spark.dynamicAllocation.executorIdleTimeout 普通Executor空闲超时时间。 60(s)

spark.dynamicAllocation.cachedExecutorIdleTimeout 含有cached blocks的Executor空闲超时时间。spark.dynamicAllocation.executorIdleTimeout的2倍

说明

1. 使用动态资源调度功能,必须配置External Shuffle Service。如果没有使用External Shuffle Service,Executor被杀时会丢失shuffle文件。

2. 配置了动态资源调度功能,就不能再单独配置Executor的个数,否则会报错退出。

3. 使用动态资源调度功能,能保证最少的executor的个数(spark.dynamicAllocation.minExecutors)

相关文章

  • spark系统实现yarn资源的自动调度

    参考: http://blog.csdn.net/dandykang/article/details/481609...

  • Spark 核心概念

    Master Spark 特有资源调度系统的 Leader。掌管着整个集群的资源信息,类似于 Yarn 框架中的 ...

  • Hadoop2.0 | YARN资源调度

    YARN资源调度 YARN容错 ResourceManager存在单点故障正在基于ZooKeeper实现HA No...

  • spark on yarn 搭建

    原理 Spark on YARN的原理就是依靠yarn来调度Spark,比默认的Spark运行模式性能要好的多,前...

  • Hadoop Yarn 资源调度器解析

    Hadoop Yarn 资源调度器解析篇 Yarn资源调度器简介 资源调度器是Yarn中最核心的组件之一,他是Re...

  • yarn之资源调度器

    1: yarn 资源调度的定义 2: yarn 资源调度的种类 在Yarn中有三种调度器可以选择:FIFO Sch...

  • spark是什么

    hadoop有文件系统HDFS,还有用来调度任务的YARN。而SPARK可以在YARN上开一个APPLICATIO...

  • standalone集群

    standalone集群 是spark自己带的资源调度集群yarn是所有符合其标准的程序跟他申请资源他都给Spar...

  • Spark master HA

    1.原理 只针对Spark自带的Standalone资源调度框架,因为Yarn本身就是高可用的 Standalon...

  • Spark On Yarn 如何提高CPU利用率

    问题描述: Spark on Yarn是利用yarn进行资源调度,这两天我写的一个程序处理大概100W行文本...

网友评论

    本文标题:spark系统实现yarn资源的自动调度

    本文链接:https://www.haomeiwen.com/subject/umatictx.html