美文网首页Kubernetes
spark几种部署模式,每种模式特点及搭建

spark几种部署模式,每种模式特点及搭建

作者: rssivy | 来源:发表于2018-11-12 22:12 被阅读734次

    Spark分布式集群搭建的步骤

    • 1)准备linux环境,设置集群搭建账号和用户组,设置ssh,关闭防火墙,关闭seLinux,配置host,hostname
    • 2)配置jdk到环境变量
    • 3)搭建hadoop集群,如果要做master,需要搭建zookeeper集、修改hdfs-site.xml,hadoop_env.sh,yarn-site.xml,slaves等配置文件
    • 4)启动hadoop集群,启动前要格式化namenode
    • 5)配置spark集群,修改spark-env.xml,slaves等配置文件,拷贝hadoop相关配置到spark conf目录下
    • 6)启动spark集群。

    spark的有几种部署模式,每种模式特点

    • local(本地模式):常用于本地开发测试,本地还分为local单线程和local-cluster多线程;
    • standalone(集群模式):典型的Mater/slave模式,不过也能看出Master是有单点故障的;Spark支持ZooKeeper来实现 HA
    • on yarn(集群模式): 运行在 yarn 资源管理器框架之上,由 yarn 负责资源管理,Spark 负责任务调度和计算
    • on mesos(集群模式): 运行在 mesos 资源管理器框架之上,由 mesos 负责资源管理,Spark 负责任务调度和计算
    • on cloud(集群模式):比如 AWS 的 EC2,使用这个模式能很方便的访问 Amazon的 S3;Spark 支持多种分布式存储系统:HDFS 和 S3

    下面对集中部署模式进行详细介绍

    1、本地模式

    该模式运行任务不会提交在集群中,只在本节点执行,有两种情况

    本地模式: 测试或实验性质的本地运行模式 (单机)

    运行该模式非常简单,只需要把Spark的安装包解压后,改一些常用的配置即可使用,而不用启动Spark的Master、Worker守护进程( 只有集群的Standalone方式时,才需要这两个角色),也不用启动Hadoop的各服务(除非你要用到HDFS)。

    Spark不一定非要跑在hadoop集群,可以在本地,起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地,一般都是为了方便调试,本地单机模式分三类:

    • local:只启动一个executor
    • local[k]:启动k个executor
    • local[*]:启动跟cpu数目相同的 executor

    搭建步骤:

    • 安装java
    $ sudo apt-get install openjdk-8-jre
    

    (中间有报错:raise IllegalArgumentException(s.split(': ', 1)[1], stackTrace)
    pyspark.sql.utils.IllegalArgumentException: u'Unable to locate hive jars to connect to metastore. Please set spark.sql.hive.metastore.jars.',网上提示查看jdk版本,发现ubuntu 18.04默认是openjdk-11-jdk包(java -version提示10.0.1)。重新安装openjdk-8-jdk版本不报错)

    • 配置jdk到环境变量
      (可以用命令:sudo update-alternatives --config java来查看你的Java版本有哪些,需要将哪个添加到环境变量中)
    $ sudo vim /etc/profile
    
    • 添加
    export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64
    
    • 安装Scala
    • 安装spark-2.3.1-bin-hadoop2.7(没有Hadoop的环境下)
    $ sudo wget -c [http://mirror.bit.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz](http://mirror.bit.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz)
    $ sudo tar zxf spark-2.3.1-bin-hadoop2.7.tgz -C /usr/lib/spark
    $ cd /usr/lib/spark
    $ sudo ln -s spark-2.3.1-bin-hadoop2.7 spark
    $ sudo vim ~/.bashrc
    
    • 添加
      export SPARK_HOME=/usr/lib/spark/spark
      export PATH=PATH:SPARK_HOME/bin
      export PYTHONPATH=/home/rss/anaconda2/bin
      (这里我修改了python的环境变量,使用自己的python
      sudo ln -s /home/rss/anaconda2/bin/python /usr/bin/python
      PATH=/usr/bin:$PATH)
    • 安装成功

    运行:
    使用spark-shell、spark-submit、pyspark
    例如使用spark-shell:

    local:单机、单核运行

    image.png
    image.png

    local[k]:启动k个executor

    image.png
    image.png

    local[]:启动跟cpu数目相同的 executor*

    image.png
    image.png

    上述情况中,local[N]与local[*]相当于用单机的多个线程来模拟spark分布式计算,通常用来检验开发出来的程序逻辑上有没有问题。

    其中N代表可以使用N个线程,每个线程拥有一个core。

    这些任务的线程,共享在一个进程中,可以开到,在程序的执行过程中只会产生一个进程,这个进程揽下了所有的任务,既是客户提交任务的client进程,又是spark的driver程序,还是spark执行task的executor

    本地模式: 测试或实验性质的本地伪集群运行模式(单机本地模拟集群)

    这种运行模式,和Local[N]很像,不同的是,它会在单机启动多个进程来模拟集群下的分布式场景,而不像Local[N]这种多个线程只能在一个进程下委屈求全的共享资源。通常也是用来验证开发出来的应用程序逻辑上有没有问题,或者想使用Spark的计算框架而没有太多资源。

    用法:提交应用程序时使用local-cluster[x,y,z]参数:x代表要生成的executor数,y和z分别代表每个executor所拥有的core和memory数。

    $ spark-submit --master local-cluster[2,3,1024]  ss.py
    

    上面这条命令代表会使用2个executor进程,每个进程分配3个core和1G的内存,来运行应用程序。可以看到,在程序执行过程中,会生成如下几个进程:

    相关文章

      网友评论

        本文标题:spark几种部署模式,每种模式特点及搭建

        本文链接:https://www.haomeiwen.com/subject/xjshfqtx.html