美文网首页@IT·大数据大数据Hadoop
spark提交脚本的配置文件

spark提交脚本的配置文件

作者: 小小毛同学 | 来源:发表于2019-04-28 11:27 被阅读1次

话不多说,直接上干货

我的提交脚本是这样的.

spark2-submit \

--class appVersion1.analyze.Demo01 \

--master yarn \

--deploy-mode cluster \

--driver-memory 4g \

--executor-memory 20g \

--executor-cores 6 \

--num-executors 15 \

XPhone_Analyze-1.0-SNAPSHOT.jar \

在调整配置的时候,需要根据自己的实际情况来调整,下面给你介绍如何根据自己的实际情况来调整适合自己集群的配置文件

对于同一个类来说(如果集群资源比较多的话,可以选一个比较吃内存的类),先保证其他配置不变,只改变一个变量

在调整executor-memory的时候,服务器的运行内存是在增加的

服务器内存增加的总量是:executor-core的数量*executor-memory

在调整num-executor的时候,服务器的cpu的core的使用量在增加

服务器的cpu的core的增加的量是:executor-core的数量*num-executor

所以

executor-core的数量*num-executor是服务器可用的core的数量的综合

executor-core的数量*executor-memory是服务器可用的内存量的大小的综合

根据上面的调整,使用下面的参数是最正常的

num-executors

参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给你启动少量的Executor进程,此时你的Spark作业的运行速度是非常慢的。

参数调优建议:每个Spark作业的运行一般设置50~100个左右的Executor进程比较合适,设置太少或太多的Executor进程都不好。设置的太少,无法充分利用集群资源;设置的太多的话,大部分队列可能无法给予充分的资源。

executor-memory

参数说明:该参数用于设置每个Executor进程的内存。Executor内存的大小,很多时候直接决定了Spark作业的性能,而且跟常见的JVM OOM异常,也有直接的关联。

参数调优建议:每个Executor进程的内存设置4G~8G较为合适。但是这只是一个参考值,具体的设置还是得根据不同部门的资源队列来定。可以看看自己团队的资源队列的最大内存限制是多少,num-executors乘以executor-memory,就代表了你的Spark作业申请到的总内存量(也就是所有Executor进程的内存总和),这个量是不能超过队列的最大内存量的。此外,如果你是跟团队里其他人共享这个资源队列,那么申请的总内存量最好不要超过资源队列最大总内存的1/3~1/2,避免你自己的Spark作业占用了队列所有的资源,导致别的同学的作业无法运行。

executor-cores

参数说明:该参数用于设置每个Executor进程的CPU core数量。这个参数决定了每个Executor进程并行执行task线程的能力。因为每个CPU core同一时间只能执行一个task线程,因此每个Executor进程的CPU core数量越多,越能够快速地执行完分配给自己的所有task线程。

参数调优建议:Executor的CPU core数量设置为2~4个较为合适。同样得根据不同部门的资源队列来定,可以看看自己的资源队列的最大CPU core限制是多少,再依据设置的Executor数量,来决定每个Executor进程可以分配到几个CPU core。同样建议,如果是跟他人共享这个队列,那么num-executors * executor-cores不要超过队列总CPU core的1/3~1/2左右比较合适,也是避免影响其他同学的作业运行。

大体来说就是这样的配置了,如果还有问题的话,可以私聊或是微信(maochentingqiang)

spark提交脚本的配置文件

相关文章

网友评论

    本文标题:spark提交脚本的配置文件

    本文链接:https://www.haomeiwen.com/subject/wnqdnqtx.html