美文网首页
基于docker的Spark分布式搭建

基于docker的Spark分布式搭建

作者: e505dd779611 | 来源:发表于2018-10-26 20:22 被阅读0次

    docker spark


    1.准备工作

    三个 docker 容器,操作系统为:Ubuntu 14.04

    ip 机器名称 集群节点 登录用户
    17.172.192.108 Hadoop1 master/slave tank
    17.172.192.123 Hadoop2 slave tank
    17.172.192.124 Hadoop3 slave tank

    2.安装jdk并配置环境变量

    1)解压缩文件
    tar -zxvf jdk-8u141-linux-x64.tar.gz /usr/local/java
    
    2)配置环境变量
    • 打开 vi
    sudo vi /etc/profile
    
    • 在打开的profile末尾添加环境变量
    export JAVA_HOME=/usr/local/java/jdk.1.8.0_141
    export JRE_HOME=${JAVA_HOME}/jre
    export CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib
    export PATH=$PATH:${JAVA_HOME}/bin
    
    • 让文件生效
    source /etc/profile
    
    • 验证 Java 环境配置
    java -version
    

    3.安装和配置Scala

    1)下载Scala安装包
    wget https://downloads.lightbend.com/scala/2.12.7/scala-2.12.7.tgz
    
    2)解压
    tar -zxvf scala-2.12.7.tgz
    
    3)复制到/usr下面
    docker mv scala-2.12.7 /usr
    
    4)配置环境变量
    vi /etc/profile
    
    export SCALA_HOME=/usr/scala-2.12.7
    export PATH=$SCALA_HOME/bin:$PATH
    
    5)保存后刷新配置
    source /etc/profile
    
    6)验证是否配置成功
    scala -version
    

    4.配置SSH免密登录

    1)生成ssh秘钥
    ssh -keygen
    
    2) 将秘钥导入authorized_keys,配置成免密码登录本地
    cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys
    
    3)测试免密码登录本机
    ssh localhost
    

    注:docker容器之间通信,不用防火墙

    5.安装 Hadoop

    1)解压缩下载之后的hadoop文件
    tar -zxvf hadoop-2.7.3.tar.gz /usr/local/hadoop/
    
    2) 配置core-site.xml
     <!-- 指定HDFS老大(namenode)的通信地址 -->
        <property>
                <name>fs.default.name</name>
                <value>hdfs://hadoop1:9000</value><!-- 主节点写localhost 从节点写hadoop1 -->
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/home/tank/hadoop/tmp</value>
        </property>
    
    3)配置hdfs-site.xml
    <configuration>
            <property> <!--此项非必须配-->
                    <name>dfs.namenode.secondary.http-address</name>
                    <value>master:50900</value>
            </property>
            <property>
                    <name>dfs.replication</name>
                    <value>1</value>
            </property>
            <property>
                    <name>dfs.namenode.name.dir</name>
                    <value>/home/tank/hadoop/hdfs/name</value>
            </property>  
            <property>
                    <name>dfs.datanode.data.dir</name>
                    <value>/home/tank/hadoop/hdfs/data</value>
            </property>
            <property>
                    <name>dfs.namenode.handler.count</name>
                    <value>10</value><!--namenode通信线程数,太小会导致通信阻塞-->
            </property>
            <property>
                    <name>dfs.datanode.du.reserved</name>
                    <value>10737418240</value><!--硬盘保留空间,10G,单位字节-->
            </property>
    </configuration>
    
    4)配置mapred-site.xml
    <configuration>
            <property>
                <name>mapred.child.java.opts</name><!--map或red的JVM堆大小,应<=mapreduce.*.memory.mb-->
                <value>-Xmx1000m</value>
        </property>
            <property>
                <name>mapreduce.map.memory.mb</name><!--map任务容器的内存大小-->
                <value>1024MB</value>
        </property>
            <property>
                <name>mapreduce.reduce.memory.mb</name><!--reduce任务容器的内存大小-->
                <value>1024MB</value>
        </property>
            <property>
                <name>mapreduce.job.reduce.slowstart.completedmaps</name><!--调度reduce之前map完成进度-->
                <value>0.5</value>
        </property>
            <property>
                <name>mapreduce.jobtracker.taskscheduler</name><!--任务调度算法,默认FIFO-->
                <value>org.apache.hadoop.mapred.JobQueueTaskScheduler</value>
        </property>
            <property>
                <name>mapreduce.map.maxattempts</name><!--map最大尝试次数-->
                <value>3</value>
        </property>
            <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.address</name>
            <value>hadoop1:10020</value>
        </property>
        <property>
                <name>mapreduce.jobhistory.webapp.address</name>
                <value>hadoop1:19888</value>
        </property>
        <property>
                <name>mapred.job.tracker</name>
                <value>hadoop1:9001</value>
        </property>
    </configuration>
    
    5)配置yarn-site.xml
    <configuration>
    <!-- Site specific YARN configuration properties -->
            <property>
                    <name>yarn.resourcemanager.hostname</name>
                    <value>hadoop1</value>
            </property>
            <property>
                    <name>yarn.nodemanager.aux-services</name>
                    <value>mapreduce_shuffle</value>  <!-- 逗号分隔的辅助服务列表-->
            </property>
            <property>
                    <name>yarn.nodemanager.resource.memory-mb</name>
                    <value>8192</value>  <!-- 可分配给容器的物理内存总和-->
            </property>
            <property>
                    <name>yarn.scheduler.minimum-allocation-mb</name>
                    <value>1024</value>  <!-- 启动容器需要向资源管理器申请的最小内存量-->
            </property>
            <property>
                    <name>yarn.scheduler.maxmum-allocation-mb</name>
                    <value>8192</value>  <!-- 启动容器需要向资源管理器申请的最大内存量-->
            </property>
            <property>
                <name>yarn.log-aggregation-enable</name>    
            <value>true</value>    
           </property> 
    </configuration>
    
    6)修改hadoop-env.sh,配置jdk路径
    export JAVA_HOME=/usr/local/java/jdk1.8.0_141
    
    7)添加hadoop环境变量
    sudo vi /etc/profile
    
    export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
    export PATH=$PATH:${HADOOP_HOME}/bin
    
    8)在集群所有节点进行前15步操作,并进行ssh互相免密码登录设置
    • 修改各个节点的/etc/hosts文件,添加
    17.172.192.108 hadoop1
    17.172.192.123 hadoop2
    17.172.192.124 hadoop3
    
    • 将主节点的id_rsa.pub远程发送至所有叶子节点,命名为master.pub
    rcp id_rsa.pub hadoop@hadoop2:~/.ssh/master.pub
    rcp id_rsa.pub hadoop@hadoop3:~/.ssh/master.pu
    
    • 将主节点的master.pub追加到所有叶子节点的authorized_keys文件中,最终结果为主节点可以免密码登录到所有叶子节点
    9)配置集群从节点

    修改$HADOOP_HOME/etc/hadoop目录下的slaves文件,改为一下内容,代表三台机器都作为从节点参与任务

    hadoop1
    hadoop2
    hadoop3
    
    10)启动hadoop集群
    cd $HADOOP_HOME
    sbin/start-all.sh
    
    11)查看集群运行状态
    jps
    NodeManager
    Jps
    NameNode
    ResourceManager
    SecondaryNameNode
    DataNode
    
    12)启动jobhistory进程
    sbin/mr-jobhistory-daemon.sh start historyserver
    jps
    NodeManager
    Jps
    NameNode
    ResourceManager
    JobHistoryServer
    SecondaryNameNode
    DataNode
    JobHistoryServer
    
    //子节点上的进程
    Jps
    NodeManage
    DataNode
    

    6.Spark2.1.0完全分布式环境搭建

    以下操作都在Master节点(Hadoop1)进行

    1)下载二进制包spark-2.3.2-bin-hadoop2.7.tgz
    2)解压并移动到相应目录,命令如下:
    tar -zxvf spark-2.3.2-bin-hadoop2.7.tgz
    mv spark-2.3.2-bin-hadoop2.7.tgz /opt
    
    3)修改相应的配置文件
    • /etc/profie
    export SPARK_HOME=/opt/spark-2.3.2-bin-hadoop2.7/
    export PATH=$PATH:$SPARK_HOME/bin
    
    • 复制spark-env.sh.template成spark-env.sh
    cp spark-env.sh.template spark-env.sh
    
    • 修改$SPARK_HOME/conf/spark-env.sh,添加如下内容:
    export JAVA_HOME=/usr/local/jdk1.8.0_141
    export SCALA_HOME=/usr/scala-2.12.7
    export HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3
    export HADOOP_CONF_DIR=/usr/local/hadoop/hadoop-2.7.3/etc/hadoop
    export SPARK_MASTER_IP=172.17.192.108
    export SPARK_MASTER_HOST=172.17.192.108
    export SPARK_LOCAL_IP=172.17.192.108
    export SPARK_WORKER_MEMORY=1g
    export SPARK_WORKER_CORES=2
    export SPARK_HOME=/opt/spark-2.3.2-bin-hadoop2.7
    export SPARK_DIST_CLASSPATH=$(/usr/local/hadoop/hadoop-2.7.3/bin/hadoop classpath)
    
    • 复制slaves.template成slaves
    cp slaves.template slaves
    
    5)修改Slave1和Slave2配置

    在Slave1和Slave2上分别修改/etc/profile,增加Spark的配置,过程同Master一样。
    在Slave1和Slave2修改$SPARK_HOME/conf/spark-env.sh,将export > >SPARK_LOCAL_IP=172.17.192.108改成Slave1和Slave2对应节点的IP。

    6)在Master节点启动集群
    /opt/spark-2.3.2-bin-hadoop2.7/sbin/start-all.sh
    
    7)查看集群是否启动成功
    jps
    

    Master在Hadoop的基础上新增了:
    Master
    Slave在Hadoop的基础上新增了:
    Worker

    相关文章

      网友评论

          本文标题:基于docker的Spark分布式搭建

          本文链接:https://www.haomeiwen.com/subject/fywltqtx.html