Spark On YARN 集群安装部署

作者: 种个太阳砸死你 | 来源:发表于2017-01-08 19:10 被阅读200次

Spark 的 Yarn-cluster 模式和 Yarn-cl
Spark相关文章索引（5）
Spark On YARN 集群安装部署
Spark On YARN 集群安装部署
Spark On YARN 集群安装部署
Spark On YARN 集群安装部署
Spark两种提交方式Yarn-client and Yarn-
124、Spark核心编程进阶之local模式提交spark作业
spark yarn集群搭建（三：spark集群搭建）
Spark开发--Yarn集群模式（五）

学习spark，记录下来搭建环境及软件版本，供大家使用

软件环境

Centos6.5
jdk1.7.0_79
hadoop-2.7.3
scala-2.10.4
spark-2.0.0-bin-hadoop2.7

0. 序

所有linux系统均在root用户下使用，目的是为了省去权限麻烦，所以一律采用root用户

1. 环境准备

修改主机名

我们将搭建1个master，1个slave的方案。首先修改主机名vi /etc/hostname，在master上修改为master，其中一个slave上修改为slave1。

配置hosts

在每台主机上修改host文件

vi /etc/hosts

10.1.1.107      master
10.1.1.108      slave1

配置之后ping一下用户名看是否生效

ping slave1

SSH 免密码登录

默认情况下，Centos6.5已经自带了Openssh server。如果没有的话，可以使用以下命令安装

apt-get install openssh-server

在所有机器上都生成私钥和公钥

ssh-keygen -t rsa   # 一路回车

需要让机器间都能相互访问，就把每个机子上的id_rsa.pub发给master节点，传输公钥可以用scp来传输。

scp ~/.ssh/id_rsa.pub root@master:~/.ssh/id_rsa.pub.slave1

在master上，将所有公钥加到用于认证的公钥文件authorized_keys中

cat ~/.ssh/id_rsa.pub* >> ~/.ssh/authorized_keys

将公钥文件authorized_keys分发给每台slave

scp ~/.ssh/authorized_keys root@slave1:~/.ssh/

在每台机子上验证SSH无密码通信

ssh master
ssh slave1

登陆后，如果想退出，则可以使用'

exit

关闭防火墙

由于多个端口的访问，所以最好在所有机器上关闭防火墙，生产环境则需要将端口号放入防火墙中

service iptables stop

结果如下

iptables：将链设置为政策 ACCEPT：filter [确定]
iptables：清除防火墙规则：[确定]
iptables：正在卸载模块：[确定]

2. 软件基础安装

安装 Java

从官网下载最新版 Java 就可以,在/usr/local目录下直接解压

tar -zxvf jdk-7u79-linux-x64.tar.gz

修改环境变量vi /etc/profile，添加下列内容，注意将home路径替换成你的：

export WORK_SPACE=/usr/local
export JAVA_HOME=$WORK_SPACE/jdk1.7.0_79
export JRE_HOME=/usr/local/jdk1.7.0_79/jre
export PATH=$JAVA_HOME/bin:$JAVA_HOME/jre/bin:$PATH
export CLASSPATH=$CLASSPATH:.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib

然后使环境变量生效，并验证 Java 是否安装成功。这里注意，source命令最好仅使用一次，因为多次使用会将路径复制多遍到Path下。

$ source /etc/profile   #生效环境变量
$ java -version         #如果打印出如下版本信息，则说明安装成功
java version "1.7.0_79"
Java(TM) SE Runtime Environment (build 1.7.0_79-b15)
Java HotSpot(TM) 64-Bit Server VM (build 24.79-b02, mixed mode)

安装 Scala

Spark官方要求 Scala 版本为 2.10.x，注意不要下错版本，我下载了 2.10.4版本同样我们在/usr/local目录下直接解压

tar -zxvf scala-2.10.4.tgz

再次修改环境变量vi /etc/profile，添加以下内容：

export SCALA_HOME=$WORK_SPACE/scala-2.10.4
export PATH=$PATH:$SCALA_HOME/bin

同样的方法使环境变量生效，并验证 scala 是否安装成功

$ source /etc/profile   #生效环境变量
$ scala -version        #如果打印出如下版本信息，则说明安装成功
Scala code runner version 2.10.4 -- Copyright 2002-2013, LAMP/EPFL

3. 安装配置 Hadoop YARN

下载解压

从官网下载 hadoop-2.7.3 版本同样我们在/usr/local解压

tar -zxvf hadoop-2.7.3.tar.gz

配置 Hadoop

cd /usr/local/hadoop-2.7.3/etc/hadoop进入hadoop配置目录，需要配置有以下7个文件：hadoop-env.sh，yarn-env.sh，slaves，core-site.xml，hdfs-site.xml，maprd-site.xml，yarn-site.xml。

1.在hadoop-env.sh中配置JAVA_HOME

# The java implementation to use.
export JAVA_HOME=/usr/local/jdk1.7.0_79

2.在yarn-env.sh中配置JAVA_HOME

# some Java parameters
export JAVA_HOME=/usr/local/jdk1.7.0_79

3.在slaves中配置slave节点的ip或者host

slave1

4.修改core-site.xml

<configuration>
 <property>
     <name>fs.defaultFS</name>
     <value>hdfs://master:9000/</value>
 </property>
 <property>
      <name>hadoop.tmp.dir</name>
      <value>file:/usr/local/hadoop-2.7.3/tmp</value>
 </property>
</configuration>

5.修改hdfs-site.xml

<configuration>
 <property>
     <name>dfs.namenode.secondary.http-address</name>
     <value>master:9001</value>
 </property>
 <property>
     <name>dfs.namenode.name.dir</name>
     <value>file:/usr/local/hadoop-2.7.3/dfs/name</value>
 </property>
 <property>
     <name>dfs.datanode.data.dir</name>
     <value>file:/usr/local/hadoop-2.7.3/dfs/data</value>
 </property>
 <property>
     <name>dfs.replication</name>
     <value>3</value>
 </property>
</configuration>

6.修改mapred-site.xml

<configuration>
 <property>
     <name>mapreduce.framework.name</name>
     <value>yarn</value>
 </property>
</configuration>

7.修改yarn-site.xml

<configuration>
 <property>
     <name>yarn.nodemanager.aux-services</name>
     <value>mapreduce_shuffle</value>
 </property>
 <property>
     <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
     <value>org.apache.hadoop.mapred.ShuffleHandler</value>
 </property>
 <property>
     <name>yarn.resourcemanager.address</name>
     <value>master:8032</value>
 </property>
 <property>
     <name>yarn.resourcemanager.scheduler.address</name>
     <value>master:8030</value>
 </property>
 <property>
     <name>yarn.resourcemanager.resource-tracker.address</name>
     <value>master:8035</value>
 </property>
 <property>
     <name>yarn.resourcemanager.admin.address</name>
     <value>master:8033</value>
 </property>
 <property>
     <name>yarn.resourcemanager.webapp.address</name>
     <value>master:8088</value>
 </property>
</configuration>

8.将配置好的hadoop-2.7.3文件夹分发给所有slaves

scp -r /usr/local/hadoop-2.7.3 root@slave1:/usr/local/

启动 Hadoop

在 master 上执行以下操作，就可以启动 hadoop 了。

cd /usr/local/hadoop-2.7.3/sbin    #进入hadoop目录
./bin/hadoop namenode -format     #格式化namenode
./start-dfs.sh               #启动dfs 
./start-yarn.sh              #启动yarn

验证 Hadoop 是否安装成功

可以通过jps命令查看各个节点启动的进程是否正常。在 master 上应该有以下几个进程：

$ jps  #run on master
3407 SecondaryNameNode
3218 NameNode
3552 ResourceManager
3910 Jps

在每个slave上应该有以下几个进程：

$ jps   #run on slaves
2072 NodeManager
2213 Jps
1962 DataNode

或者在浏览器中输入 http://master:8088 ，应该有 hadoop 的管理界面出来了，并能看到 slave1 节点(目前看不到，没有找到原因).

4. Spark安装

下载解压

进入官方下载地址下载最新版 Spark。我下载的是 spark-2.0.0-bin-hadoop2.7.tgz。在/usr/local目录下解压

tar -zxvf spark-2.0.0-bin-hadoop2.7.tgz
mv spark-2.0.0-bin-hadoop2.7 spark-2.0.0    #原来的文件名太长了，修改下

配置 Spark

cd /usr/local/spark-2.0.0/conf    #进入spark配置目录
cp spark-env.sh.template spark-env.sh   #从配置模板复制
vi spark-env.sh     #添加配置内容

在spark-env.sh末尾添加以下内容（这是我的配置，你可以自行修改）：

export SCALA_HOME=/usr/local/scala-2.10.4
export JAVA_HOME=/usr/local/jdk1.7.0_79
export HADOOP_HOME=/usr/local/hadoop-2.7.3
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop
SPARK_MASTER_IP=master
SPARK_LOCAL_DIRS=/usr/local/spark-2.0.0
SPARK_DRIVER_MEMORY=1G

注：在设置Worker进程的CPU个数和内存大小，要注意机器的实际硬件条件，如果配置的超过当前Worker节点的硬件条件，Worker进程会启动失败。 vi slaves在slaves文件下填上slave主机名：

slave1

将配置好的spark-2.0.0文件夹分发给所有slaves

scp -r /usr/local/spark-2.0.0 root@slave1:/usr/local/

启动Spark

cd /usr/local/spark-2.0.0/sbin
./start-all.sh

验证 Spark 是否安装成功

用jps检查，在 master 上应该有以下几个进程：

$ jps
7949 Jps
7328 SecondaryNameNode
7805 Master
7137 NameNode
7475 ResourceManager

在 slave 上应该有以下几个进程：

$jps
3132 DataNode
3759 Worker
3858 Jps
3231 NodeManager

5. 运行示例

搭建成功后，我们可以直接运行spark自带的例子，进行验证

cd /usr/local/spark-2.0.0/bin
./run-example org.apache.spark.examples.SparkPi

运行结果:

16/09/15 22:24:19 INFO scheduler.TaskSetManager: Finished task 1.0 in stage 0.0 (TID 1) in 149 ms on localhost (2/2)
16/09/15 22:24:19 INFO scheduler.TaskSchedulerImpl: Removed TaskSet 0.0, whose tasks have all completed, from pool 
16/09/15 22:24:19 INFO scheduler.DAGScheduler: Job 0 finished: reduce at SparkPi.scala:38, took 2.156422 s
Pi is roughly 3.14159570797854
16/09/15 22:24:19 INFO server.ServerConnector: Stopped ServerConnector@24d95700{HTTP/1.1}{0.0.0.0:4040}
16/09/15 22:24:19 INFO handler.ContextHandler: Stopped o.s.j.s.ServletContextHandler@4925d132{/stages/stage/kill,null,UNAVAILABLE}
16/09/15 22:24:19 INFO handler.ContextHandler: Stopped o.s.j.s.ServletContextHandler@13dbe345{/api,null,UNAVAILABLE}

说明已经成功

7. spark shell使用示例

cd /usr/local/spark-2.0.0/bin
./spark-shell

随后会出现如下界面

Welcome to
Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_79)
Type in expressions to have them evaluated.
Type :help for more information.

终端测试

var data = Array(1,2,3,4,5)
var distData = sc.parallelize(data)
var totalSum = distData.reduce((a,b)=>a+b)
println(totalSum)

计算结果为15 继续计算

var mapRdd = distData.map(x=>x*2)
var totalSum = mapRdd.reduce((a,b)=>a+b)

计算结果：30

8.感激

感谢博客
Jark's Blog

Spark 的 Yarn-cluster 模式和 Yarn-cl
Spark 支持 Yarn 集群的部署模式，在 Spark On Yarn 模式下，每个 Spark 的 Exec...
Spark相关文章索引（5）
环境部署 Spark on Yarn集群搭建详细过程 Python pycharm（windows版本）部署spa...
Spark On YARN 集群安装部署
学习spark，记录下来搭建环境及软件版本，供大家使用软件环境 0. 序所有linux系统均在root用户下使...
Spark On YARN 集群安装部署
续前文http://www.jianshu.com/p/b27545f6d730，基于搭建好的Hadoop集群来部...
Spark On YARN 集群安装部署
本文展示了在之前搭建的Hadoop分布式集群的基础上如何搭建Spark分布式集群环境一、已有环境 ubuntu ...
Spark On YARN 集群安装部署
软件环境 Ubuntu 16.04 LTSHadoop: 2.6.5Spark: 1.3.0 0 写在前面本例中...
Spark两种提交方式Yarn-client and Yarn-
Spark支持三种集群部署方式(Standalone,Mesos,Yarn),其中Master服务(Spark S...
124、Spark核心编程进阶之local模式提交spark作业
spark作业运行集群，有两种部署方式，一种是Spark Standalone集群，还有一种是YARN集群+Spa...
spark yarn集群搭建（三：spark集群搭建）
spark yarn集群搭建（一：准备工作） spark yarn集群搭建（二：hadoop集群搭建） Maste...
Spark开发--Yarn集群模式（五）
一、Yarn集群模式 Spark on Yarn 模式就是将Spark应用程序跑在Yarn集群之上，通过Yar...

Spark On YARN 集群安装部署

软件环境

0. 序

1. 环境准备

修改主机名

配置hosts

SSH 免密码登录

关闭防火墙

2. 软件基础安装

安装 Java

安装 Scala

3. 安装配置 Hadoop YARN

下载解压

配置 Hadoop

启动 Hadoop

验证 Hadoop 是否安装成功

4. Spark安装

下载解压

配置 Spark

启动Spark

验证 Spark 是否安装成功

5. 运行示例

7. spark shell使用示例

8.感激

相关文章

Spark 的 Yarn-cluster 模式和 Yarn-cl

Spark相关文章索引（5）