美文网首页
spark on yarn集群搭建

spark on yarn集群搭建

作者: Josen_Qu | 来源:发表于2017-11-28 09:08 被阅读14次

    Hadoop yarn集群搭建

    1. 修改host

    主节点:192.168.3.187 L-AP-3-187
    从节点:192.168.3.188 L-AP-3-188
    从节点:192.168.3.189 L-AP-3-189

    2. 配置ssh,master slaves之间无密码传输

    master 和slave上ssh-keygen -t rsa生成公钥秘钥,将公钥scp传到master上
    在master将slaves的公钥cat>>到authorized_keys
    将master上的authorized_keys发到每台机器上,让所有机器之间都能访问

    3. 下载jdk,hadoop,spark

    tar -xzvf hadoop-2.7.4.tar.gz

    常用命令

    解压
    tar –xvf file.tar //解压 tar包
    tar -xzvf file.tar.gz //解压tar.gz
    tar -xjvf file.tar.bz2   //解压 tar.bz2
    tar –xZvf file.tar.Z   //解压tar.Z
    unrar e file.rar //解压rar
    unzip file.zip //解压zip
    压缩
    tar –cvf jpg.tar *.jpg //将目录里所有jpg文件打包成tar.jpg
    tar –czf jpg.tar.gz *.jpg //将目录里所有jpg文件打包成jpg.tar后,并且将其用gzip压缩,生成一个gzip压缩过的包,命名为jpg.tar.gz
    tar –cjf jpg.tar.bz2 *.jpg //将目录里所有jpg文件打包成jpg.tar后,并且将其用bzip2压缩,生成一个bzip2压缩过的包,命名为jpg.tar.bz2
    tar –cZf jpg.tar.Z *.jpg //将目录里所有jpg文件打包成jpg.tar后,并且将其用compress压缩,生成一个umcompress压缩过的包,命名为jpg.tar.Z
    rar a jpg.rar *.jpg //rar格式的压缩,需要先下载rar for linux
    zip jpg.zip *.jpg //zip格式的压缩,需要先下载zip for linux
    

    4. 配置环境变量

    /etc/profile /spark_env.sh

    HADOOP_HOME=/server/soft/hadoop
    HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
    YARN_HOME=${HADOOP_HOME}
    YARN_CONF_DIR=${YARN_HOME}/etc/hadoop
    SCALA_HOME=/server/soft/scala
    SPARK_HOME=/server/soft/spark
    PATH=$PATH:$SCALA_HOME/bin:$HADOOP_HOME/bin:$SPARK_HOME/bin
    export HADOOP_HOME HADOOP_CONF_DIR YARN_HOME YARN_CONF_DIR SCALA_HOME SPARK_HOME PATH
    

    用spark-shell试一下

    图片.png

    5. 配置hadoop文件

    vi hadoop-env.sh(仍然需要配置环境变量,不然报错)

        export  JAVA_HOME=/server /soft/jdk8
    

    vi core-site.xml

        <configuration>
             <property>
                <name>fs.default.name</name>
                <value>hdfs://L-AP-3-187:9000</value>##hdfs对外访问目录
            </property>
            <property>
                <name>hadoop.tmp.dir</name>
                <value>/server/soft/hadoop/tmp</value> ##必须写全名路径
            </property>
        </configuration>
    

    vi mapred-site.xml

    <configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
    </configuration>
    

    vi yarn-site.xml

    <configuration>
            <property>
                    <name>yarn.nodemanager.aux-services</name>
                    <value>mapreduce_shuffle</value>
            </property>
            <property>
                    <name>yarn.resourcemanager.hostname</name>
                    <value>L-AP-3-187</value>
            </property>
    </configuration>
    

    vi slaves

        L-AP-3-188  
        L-AP-3-189
    

    修改完以后将etc/profile和hadoop spark等,scp -r hadoop L-AP-3-188:$PWD到其他机器上

    在每台机器上source /etc/profile,在hadoop home下创建tmp文件夹 mkdir tmp,
    建议所有文件在master改好以后统一scp到别的节点

    6. 启动hadoop yarn 集群

    a> 格式化name node: hdfs namenode -format

    b> sbin/start-dfs.sh #启动hdfs >>

    界面url : L-AP-3-187:50070
    L-AP-3-187(master)


    图片.png

    L-AP-3-188/L-AP-3-189:

    图片.png

    c> sbin/start-yarn.sh #启动yarn >>

    界面url: L-AP-3-187:8088
    L-AP-3-187(master):

    图片.png

    L-AP-3-188/L-AP-3-189:


    图片.png

    spark集群搭建(standlone集群模式才需要配置):

    在L-AP-3-187:

    Spark-env.sh添加环境变量

    Slaves添加work节点(同yarn)

    L-AP-3-187上执行脚本:./start-all.sh

    L-AP-3-187:多了个master的进程


    图片.png

    L-AP-3-188/L-AP-3-189:多了个work的进程


    图片.png

    UI:

    YARN(application点进去可进入sparkUI)


    图片.png

    Spark集群:


    图片.png

    相关文章

      网友评论

          本文标题:spark on yarn集群搭建

          本文链接:https://www.haomeiwen.com/subject/jkhsbxtx.html