美文网首页工作专题java学习spark
看了之后不再迷糊-Spark多种运行模式

看了之后不再迷糊-Spark多种运行模式

作者: 俺是亮哥 | 来源:发表于2017-03-30 14:20 被阅读15670次

    早就想写这章了,一直懒得动笔,不过还好,总算静下心来完成了。

    刚接触Spark时,很希望能对它的运行方式有个直观的了解,而Spark同时支持多种运行模式,官网和书籍中对他们的区别所说不详,尤其是模式之间是否有关联、启动的JVM进程是否有区别、启动的JVM进程的作用是否都一样,等等这些都没有说明,也没有现成的资料可以查询。

    所以,我今天总结一下,供新手参考和学习(下述结论基于Spark2.1.0版本和hadoop2.7.3版本)

    1,测试或实验性质的本地运行模式 (单机)

    该模式被称为Local[N]模式,是用单机的多个线程来模拟Spark分布式计算,通常用来验证开发出来的应用程序逻辑上有没有问题。

    其中N代表可以使用N个线程,每个线程拥有一个core。如果不指定N,则默认是1个线程(该线程有1个core)。

    如果是local[*],则代表 Run Spark locally with as many worker threads as logical cores on your machine.

    如下:

    spark-submit 和 spark-submit --master local 效果是一样的

    (同理:spark-shell 和 spark-shell --master local 效果是一样的)

    spark-submit --master local[4] 代表会有4个线程(每个线程一个core)来并发执行应用程序。

    那么,这些线程都运行在什么进程下呢?后面会说到,请接着往下看。

    运行该模式非常简单,只需要把Spark的安装包解压后,改一些常用的配置即可使用,而不用启动Spark的Master、Worker守护进程( 只有集群的Standalone方式时,才需要这两个角色),也不用启动Hadoop的各服务(除非你要用到HDFS),这是和其他模式的区别哦,要记住才能理解。

    那么,这些执行任务的线程,到底是共享在什么进程中呢?

    我们用如下命令提交作业:

    spark-submit --class JavaWordCount --master local[10] JavaWordCount.jar file:///tmp/test.txt 

    可以看到,在程序执行过程中,只会生成一个SparkSubmit进程。

    这个SparkSubmit进程又当爹、又当妈,既是客户提交任务的Client进程、又是Spark的driver程序、还充当着Spark执行Task的Executor角色。(如下图所示:driver的web ui)

    这里有个小插曲,因为driver程序在应用程序结束后就会终止,那么如何在web界面看到该应用程序的执行情况呢,需要如此这般:(如下图所示)

    先在spark-env.sh 增加SPARK_HISTORY_OPTS;

    然后启动start-history-server.sh服务;

    就可以看到启动了HistoryServer进程,且监听端口是18080。

    之后就可以在web上使用http://hostname:18080愉快的玩耍了。

    想必你们已经清楚了第一种运行模式了吧,我们接着往下说。

    2,测试或实验性质的本地伪集群运行模式(单机模拟集群)

    这种运行模式,和Local[N]很像,不同的是,它会在单机启动多个进程来模拟集群下的分布式场景,而不像Local[N]这种多个线程只能在一个进程下委屈求全的共享资源。通常也是用来验证开发出来的应用程序逻辑上有没有问题,或者想使用Spark的计算框架而没有太多资源。

    用法是:提交应用程序时使用local-cluster[x,y,z]参数:x代表要生成的executor数,y和z分别代表每个executor所拥有的core和memory数。

      spark-submit --master local-cluster[2, 3, 1024]

    (同理:spark-shell --master local-cluster[2, 3, 1024]用法也是一样的)

    上面这条命令代表会使用2个executor进程,每个进程分配3个core和1G的内存,来运行应用程序。可以看到,在程序执行过程中,会生成如下几个进程:

    SparkSubmit依然充当全能角色,又是Client进程,又是driver程序,还有点资源管理的作用。生成的两个CoarseGrainedExecutorBackend,就是用来并发执行程序的进程。它们使用的资源如下:

    运行该模式依然非常简单,只需要把Spark的安装包解压后,改一些常用的配置即可使用。而不用启动Spark的Master、Worker守护进程( 只有集群的standalone方式时,才需要这两个角色),也不用启动Hadoop的各服务(除非你要用到HDFS),这是和其他模式的区别哦,要记住才能理解。下面说说集群上的运行模式。

    3,Spark自带Cluster Manager的Standalone Client模式(集群)

    终于说到了体现分布式计算价值的地方了!(有了前面的基础,后面的内容我会稍微说快一点,只讲本文的关注点)

    和单机运行的模式不同,这里必须在执行应用程序前,先启动Spark的Master和Worker守护进程。不用启动Hadoop服务,除非你用到了HDFS的内容。

    start-master.sh

    start-slave.sh -h hostname url:master

    图省事,可以在想要做为Master的节点上用start-all.sh一条命令即可,不过这样做,和上面的分开配置有点差别,以后讲到数据本地性如何验证时会说。

    启动的进程如下:(其他非Master节点上只会有Worker进程)

    这种运行模式,可以使用Spark的8080 web ui来观察资源和应用程序的执行情况了。

    可以看到,当前环境下,我启动了8个worker进程,每个可使用的core是2个,内存没有限制。

    言归正传,用如下命令提交应用程序

    spark-submit --master spark://wl1:7077

    或者 spark-submit --master spark://wl1:7077 --deploy-mode client

    代表着会在所有有Worker进程的节点上启动Executor来执行应用程序,此时产生的JVM进程如下:(非master节点,除了没有Master、SparkSubmit,其他进程都一样)

    Master进程做为cluster manager,用来对应用程序申请的资源进行管理;

    SparkSubmit 做为Client端和运行driver程序;

    CoarseGrainedExecutorBackend 用来并发执行应用程序;

    注意,Worker进程生成几个Executor,每个Executor使用几个core,这些都可以在spark-env.sh里面配置,此处不在啰嗦。

    这是driver web ui的显示,可以看到每个executor的资源使用情况

    4,spark自带cluster manager的standalone cluster模式(集群)

    这种运行模式和上面第3个还是有很大的区别的。使用如下命令执行应用程序(前提是已经启动了spark的Master、Worker守护进程)不用启动Hadoop服务,除非你用到了HDFS的内容。

    spark-submit --master spark://wl1:6066 --deploy-mode cluster

    各节点启动的JVM进程情况如下:

    master节点上的进程

    提交应用程序的客户端上的进程

    某worker节点上的进程

    客户端的SparkSubmit进程会在应用程序提交给集群之后就退出(区别1)

    Master会在集群中选择一个Worker进程生成一个子进程DriverWrapper来启动driver程序(区别2)

    而该DriverWrapper 进程会占用Worker进程的一个core,所以同样的资源下配置下,会比第3种运行模式,少用1个core来参与计算(观察下图executor id 7的core数)(区别3)

    应用程序的结果,会在执行driver程序的节点的stdout中输出,而不是打印在屏幕上(区别4)

    5,基于YARN的Resource Manager的Client模式(集群)

    现在越来越多的场景,都是Spark跑在Hadoop集群中,所以为了做到资源能够均衡调度,会使用YARN来做为Spark的Cluster Manager,来为Spark的应用程序分配资源。

    在执行Spark应用程序前,要启动Hadoop的各种服务。由于已经有了资源管理器,所以不需要启动Spark的Master、Worker守护进程。相关配置的修改,请自行研究。

    使用如下命令执行应用程序

    spark-submit --master yarn 

    或者 spark-submit --master yarn --deploy-mode client

    提交应用程序后,各节点会启动相关的JVM进程,如下:

    在Resource Manager节点上提交应用程序,会生成SparkSubmit进程,该进程会执行driver程序。

    RM会在集群中的某个NodeManager上,启动一个ExecutorLauncher进程,来做为

    ApplicationMaster。另外,也会在多个NodeManager上生成CoarseGrainedExecutorBackend进程来并发的执行应用程序。

    对应的YARN资源管理的单元Container,关系如下:

    为ApplicationMaster生成了容器 000001;

    为CoarseGrainedExecutorBackend生成了容器 000002-000003

    6,基于YARN的Resource Manager的Custer模式(集群)

    使用如下命令执行应用程序:

    spark-submit --master yarn --deploy-mode cluster

    和第5种运行模式,区别如下:

    在Resource Manager端提交应用程序,会生成SparkSubmit进程,该进程只用来做Client端,应用程序提交给集群后,就会删除该进程。

    Resource Manager在集群中的某个NodeManager上运行ApplicationMaster,该AM同时会执行driver程序。紧接着,会在各NodeManager上运行CoarseGrainedExecutorBackend来并发执行应用程序。

    应用程序的结果,会在执行driver程序的节点的stdout中输出,而不是打印在屏幕上。

    对应的YARN资源管理的单元Container,关系如下:

    为ApplicationMaster生成了容器 000001

    为CoarseGrainedExecutorBackend生成了容器 000002-000003

    当然,3-6这几种运行模式,你也可以在一台单机上玩,前提是你的服务器足够牛,同时你也足够无聊。

    欢迎指正,转载请标明作者和出处,谢谢。

    相关文章

      网友评论

      • 57b2c40ebecc:搜索到的文章,特地进来回复一下:很久没见到这么【精简】&&【原创】非常清楚的文了!谢谢!
        HUBG:@吃三鹿长大 spakr 部署很简单的,就是编译比较麻烦点,但是官网都可以查到。
        俺是亮哥:@吃三鹿长大 谢谢,可以关注我,这段时间一直在忙,等闲下来,会继续码文
        57b2c40ebecc:期待作者用这种方式写一份最新的spark部署。一定会帮到很多人
      • 漠小帆:等待楼主补充【数据本地性】
      • 爱小花_ba6b:大兄弟写的很棒,有一点补充一下,standlonw 情况下有两种:deploy-mode client 和deploy-cluster 的区别就是,client必须在集群上的某个节点执行,所谓的客户端,也就是说提交应用程序的节点要作为整个程序运行的客户端,也就是说这个节点必须从属于集群!而cluster顾名思义,就是集群的意思,可以理解为提交的程序在某个集群运行,也就是说提交的机器只需要拥有单机版的spark环境就行了,至于提交的地方是哪里通过spark://指定就行了,提交的机器只作为提交的功能,提交完了之后就和他无关了!
        俺是亮哥:@爱小花_ba6b 谢谢补充:+1:
      • 哈喽jv:請問, 我的mster上 一直有 SparkSubmit 進程。 該如何刪除啊?
        俺是亮哥:kill -9
      • chenhy201248:standalone模式,怎么在一台机子上开多个worker?
        假文艺的真码农:@俺是亮哥 spark.env有这个参数??
        俺是亮哥:@chenhy201248 spark-en.sh里面有个worker数量的参数
      • 南墙已破:很有帮助
      • a9be856b6cd5:你好,我运行pyspark之后就报这个错误,请问知道是什么原因吗?
        pyspark.sql.utils.IllegalArgumentException: u"Error while instantiating 'org.apache.spark.sql.hive.HiveSessionStateBuilder':"
      • BIGUFO:你好,在standalone的client模式下有这么一句话:
        非master节点,除了没有Master、SparkSubmit,其他进程都一样

        SparkSubmit进程不一定在master上吧,在其他节点提交的话就在对应的节点上吧

      • 2d11943a9fe0:你好!写得非常好,想问一下river web ui里头的cores取决于什么,为什么我始终只是1,我在spark-env.xml里修改过好多次,就是不能让它变大
        97e2cf8d9d84: @hitwlh executor-core 这个参数
        俺是亮哥:贴个图我看看

      本文标题:看了之后不再迷糊-Spark多种运行模式

      本文链接:https://www.haomeiwen.com/subject/vleuottx.html