本文介绍如何安装多台机器的Hadoop集群(Hadoop Multi Node Cluster)。
规划
由于我的MacBook配置有限,将用虚拟机完成3台集群效果:Master-Slaves模式。
一台主要的计算机master,在HDFS担任NameNode角色,在MapReduce2(YARN)担任ResourceManager角色。
两台辅助计算机Data1,Data2,在HDFS担任DataNode角色,在MapReduce2(YARN)担任NodeManager角色。

安装步骤

创建虚拟机环境
创建细节略,这里只说下,虚拟机测试环境系统为CentOS-7。
复制Single Node Cluster至Master
为了节约时间,将Single Node Cluster的Hadoop环境直接复制到Master虚拟机上,由于我本机是MacOS系统,配置文件基本一致,只需作出如下调整:
core-site.xml

将localhost修改为Master
YARN-site.xml

ResourceManager主机与NodeManager的链接地址为8025
ResourceManager与ApplicationMaster的链接地址为8030
ResourceManager与客户端的链接地址为8050
Mapred-site.xml

mapred-site.xml 用于设置监控map与reduce程序的JobTracker任务分配情况,以及TaskTracker任务运行情况。
Hdfs-site.xml
Hdfs-site.xml用于设置HDFS分布式文件系统的相关配置,之前Single Node Cluster中因为只有一台服务器,身兼NameNode和DataNode角色,现在Master只负责NameNode,所以保留NameNode配置。

修改HOSTS
这里修改2个地方,一个是hosts,一个是hostname,都在etc目录下:
vim /etc/hostname
vim /etc/hosts
hosts:

hostname:

masters与slaves
在hadoop的etc文件夹下,编辑masters与slaves:


设置Data1
将配置好的Master虚拟机建立一个完整镜像重命名为Data1。减少配置量。
Data1只需修改如下文件:
Hosts与Hostname
Hosts:

Hostname:

hdfs-site.xml
Data1负责的是Datanode,故而hdfs-site.xml改为DataNode。

将Data1创建完整镜像重命名为Data2
通过虚拟机功能将Data1创建镜像Data2,并设置Data2的hosts相关信息。
创建HDFS存储路径
登陆Master节点,通过ssh Data1,登陆Data1,创建HDFS目录。
mkdir –p /home/parallels/Hadoop_data/hdfs/datanode
Data2同理。
格式化NameNode
在Master节点下,执行 Hadoop namenode –format

启动并校验
在Master节点下,执行start-all.sh。 登陆Master节点下的web管理页面,可以看到如下信息:

Data1,Data2以DataNode节点形式启动成功,Hadoop Multi Node Cluster 启动配置完成。
网友评论