176、Spark运维管理进阶之作业资源调度yarn模式下使用动

作者: ZFH__ZJ | 来源:发表于2019-02-11 13:11 被阅读0次

176、Spark运维管理进阶之作业资源调度yarn模式下使用动
175、Spark运维管理进阶之作业资源调度standalone
Spark核心编程进阶-yarn模式下日志查看详解
spark on yarn 搭建
177、Spark运维管理进阶之作业资源调度多个job资源调度原
MR on Yarn / Spark on Yarn/
178、Spark运维管理进阶之作业资源调度Fair Sched
Hadoop YARN：调度性能优化实践（来自美团技术团队）
173、Spark运维管理进阶之作业资源调度静态资源分配原理
174、Spark运维管理进阶之作业资源调度动态资源分配原理

先停止之前为standalone集群启动的shuffle service，./sbin/stop-shuffle-service.sh

然后进行配置
动态资源分配功能使用的所有配置，都是以spark.dynamicAllocation作为前缀的。要启用这个功能，你的作业必须将spark.dynamicAllocation.enabled设置为true。
此外，你的作业必须有一个外部shuffle服务（external shuffle service）。这个服务的目的是去保存executor的shuffle write文件，从而让executor可以被安全地移除。要启用这个服务，可以将spark.shuffle.service.enabled设置为true。在YARN中，这个外部shuffle service是由org.apache.spark.yarn.network.YarnShuffleService实现的，在每个NodeManager中都会运行。要启用这个服务，需要使用以下步骤：

使用预编译好的spark版本。
定位到spark-<version>-yarn-shuffle.jar。这个应该在$SPARK_HOME/yarn目录下。
将上面的jar加入到所有NodeManager的classpath中。
cp /opt/module/spark/yarn/spark-2.4.0-yarn-shuffle.jar /opt/module/hadoop/share/hadoop/yarn/lib/
在yarn-site.xml中，将yarn.nodemanager.aux-services设置为spark_shuffle，将yarn.nodemanager.aux-services.spark_shuffle.class设置为org.apache.spark.network.yarn.YarnShuffleService
重启所有NodeManager

实验具体步骤

首先配置好yarn的shuffle service，然后重启集群
接着呢，启动spark shell，并启用动态资源分配，但是这里跟standalone不一样，上来不会立刻申请executor

--conf spark.shuffle.service.enabled=true \
--conf spark.dynamicAllocation.enabled=true \
--conf spark.shuffle.service.port=7337 \

spark-shell --master yarn-client --jars /opt/module/hive/lib/mysql-connector-java-5.1.34.jar --conf spark.shuffle.service.enabled=true --conf spark.dynamicAllocation.enabled=true --conf spark.shuffle.service.port=7337 --driver-memory 600m --executor-memory 600m

接着执行wordcount，会尝试动态申请executor，并且申请到后，执行job，在spark web ui上，有两个executor
过了一会儿，60s过后，executor由于空闲，所以自动被释放掉了，在看spark web ui，没有executor了

网友评论

本文标题：176、Spark运维管理进阶之作业资源调度yarn模式下使用动

本文链接：https://www.haomeiwen.com/subject/antijqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

176、Spark运维管理进阶之作业资源调度yarn模式下使用动

相关文章