美文网首页
spark on yarn集群搭建

spark on yarn集群搭建

作者: Josen_Qu | 来源:发表于2017-11-28 09:08 被阅读14次

Hadoop yarn集群搭建

1. 修改host

主节点:192.168.3.187 L-AP-3-187
从节点:192.168.3.188 L-AP-3-188
从节点:192.168.3.189 L-AP-3-189

2. 配置ssh,master slaves之间无密码传输

master 和slave上ssh-keygen -t rsa生成公钥秘钥,将公钥scp传到master上
在master将slaves的公钥cat>>到authorized_keys
将master上的authorized_keys发到每台机器上,让所有机器之间都能访问

3. 下载jdk,hadoop,spark

tar -xzvf hadoop-2.7.4.tar.gz

常用命令

解压
tar –xvf file.tar //解压 tar包
tar -xzvf file.tar.gz //解压tar.gz
tar -xjvf file.tar.bz2   //解压 tar.bz2
tar –xZvf file.tar.Z   //解压tar.Z
unrar e file.rar //解压rar
unzip file.zip //解压zip
压缩
tar –cvf jpg.tar *.jpg //将目录里所有jpg文件打包成tar.jpg
tar –czf jpg.tar.gz *.jpg //将目录里所有jpg文件打包成jpg.tar后,并且将其用gzip压缩,生成一个gzip压缩过的包,命名为jpg.tar.gz
tar –cjf jpg.tar.bz2 *.jpg //将目录里所有jpg文件打包成jpg.tar后,并且将其用bzip2压缩,生成一个bzip2压缩过的包,命名为jpg.tar.bz2
tar –cZf jpg.tar.Z *.jpg //将目录里所有jpg文件打包成jpg.tar后,并且将其用compress压缩,生成一个umcompress压缩过的包,命名为jpg.tar.Z
rar a jpg.rar *.jpg //rar格式的压缩,需要先下载rar for linux
zip jpg.zip *.jpg //zip格式的压缩,需要先下载zip for linux

4. 配置环境变量

/etc/profile /spark_env.sh

HADOOP_HOME=/server/soft/hadoop
HADOOP_CONF_DIR=${HADOOP_HOME}/etc/hadoop
YARN_HOME=${HADOOP_HOME}
YARN_CONF_DIR=${YARN_HOME}/etc/hadoop
SCALA_HOME=/server/soft/scala
SPARK_HOME=/server/soft/spark
PATH=$PATH:$SCALA_HOME/bin:$HADOOP_HOME/bin:$SPARK_HOME/bin
export HADOOP_HOME HADOOP_CONF_DIR YARN_HOME YARN_CONF_DIR SCALA_HOME SPARK_HOME PATH

用spark-shell试一下

图片.png

5. 配置hadoop文件

vi hadoop-env.sh(仍然需要配置环境变量,不然报错)

    export  JAVA_HOME=/server /soft/jdk8

vi core-site.xml

    <configuration>
         <property>
            <name>fs.default.name</name>
            <value>hdfs://L-AP-3-187:9000</value>##hdfs对外访问目录
        </property>
        <property>
            <name>hadoop.tmp.dir</name>
            <value>/server/soft/hadoop/tmp</value> ##必须写全名路径
        </property>
    </configuration>

vi mapred-site.xml

<configuration>
    <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
    </property>
</configuration>

vi yarn-site.xml

<configuration>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
        </property>
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>L-AP-3-187</value>
        </property>
</configuration>

vi slaves

    L-AP-3-188  
    L-AP-3-189

修改完以后将etc/profile和hadoop spark等,scp -r hadoop L-AP-3-188:$PWD到其他机器上

在每台机器上source /etc/profile,在hadoop home下创建tmp文件夹 mkdir tmp,
建议所有文件在master改好以后统一scp到别的节点

6. 启动hadoop yarn 集群

a> 格式化name node: hdfs namenode -format

b> sbin/start-dfs.sh #启动hdfs >>

界面url : L-AP-3-187:50070
L-AP-3-187(master)


图片.png

L-AP-3-188/L-AP-3-189:

图片.png

c> sbin/start-yarn.sh #启动yarn >>

界面url: L-AP-3-187:8088
L-AP-3-187(master):

图片.png

L-AP-3-188/L-AP-3-189:


图片.png

spark集群搭建(standlone集群模式才需要配置):

在L-AP-3-187:

Spark-env.sh添加环境变量

Slaves添加work节点(同yarn)

L-AP-3-187上执行脚本:./start-all.sh

L-AP-3-187:多了个master的进程


图片.png

L-AP-3-188/L-AP-3-189:多了个work的进程


图片.png

UI:

YARN(application点进去可进入sparkUI)


图片.png

Spark集群:


图片.png

相关文章

网友评论

      本文标题:spark on yarn集群搭建

      本文链接:https://www.haomeiwen.com/subject/jkhsbxtx.html