美文网首页我爱编程
构建大数据平台(三)Hadoop集群搭建

构建大数据平台(三)Hadoop集群搭建

作者: Mr_ZhaiDK | 来源:发表于2018-02-27 15:15 被阅读0次

一、设置主机名称
当四台服务器安装好之后,获得它们的IP地址,并设置主机名

vi /etc/hostname

修改主机名称,四台机器分别设置为:master,slave1,slave2,slave3

二、设置hosts文件内容
根据实际IP地址和主机名,修改/etc/hosts文件内容为:

192.168.2.158 master 
192.168.2.159 slave1 
192.168.2.177 slave2
192.168.2.178 slave3

(1)使用如下命令修改,然后保存(vi的相关命令见http://www.runoob.com/linux/linux-vim.html

vi /etc/hosts

(2)使用如下命令查看

more /etc/hosts

(3)重启后,hosts生效。命令:

reboot now

三、SSH免密码登录
提示:我全程用的都是root用户,没有另外创建用户。每台服务器都生成公钥,再合并到authorized_keys。

  1. CentOS默认没有启动ssh无密登录,去掉/etc/ssh/sshd_config其中2行的注释,每台服务器都要设置,
    查找
#RSAAuthentication yes
#PubkeyAuthentication yes

修改成

RSAAuthentication yes
PubkeyAuthentication yes
  1. 输入命令,ssh-keygen -t rsa,生成key,都不输入密码,一直回车,/root就会生成.ssh文件夹,每台服务器都要设置;

  2. 合并公钥到authorized_keys文件,在master服务器,进入/root/.ssh目录,通过SSH命令合并,(~/.ssh/id_rsa.pub 是省略的写法,要根据实际路径来确定)

cd /roo/.ssh
cat id_rsa.pub>> authorized_keys
ssh root@192.168.2.159 cat ~/.ssh/id_rsa.pub >> authorized_keys
ssh root@192.168.2.177 cat ~/.ssh/id_rsa.pub >> authorized_keys
ssh root@192.168.2.178 cat ~/.ssh/id_rsa.pub >> authorized_keys
  1. 把master服务器的authorized_keys、known_hosts复制到slave服务器的/root/.ssh目录
scp -r /root/.ssh/authorized_keys root@192.168.2.159:/root/.ssh/  
scp -r /root/.ssh/known_hosts   root@192.168.2.159:/root/.ssh/

scp -r /root/.ssh/authorized_keys root@192.168.2.177:/root/.ssh/
scp -r /root/.ssh/known_hosts  root@192.168.2.177:/root/.ssh/

scp -r /root/.ssh/authorized_keys root@192.168.2.178:/root/.ssh/
scp -r /root/.ssh/known_hosts  root@192.168.2.178:/root/.ssh/
  1. 完成后,ssh root@192.168.2.159、ssh root@192.168.2.177、192.168.2.178或者(ssh root@slave1、ssh root@slave2、ssh root@slave3 ) 就不需要输入密码直接登录到其他节点上。

四、安装JDK 1.8

Hadoop2.9支持JDK7以上的版本,由于我的CentOS自带了OpenJDK,所以要先卸载,然后解压下载的JDK并配置变量即可。 可在master上面安装,然后利用scp 复制到slave机器上。

  1. 卸载自带OpenJDK:

(1)查看已经安装的jdk

rpm -qa|grep jdk

(2)卸载命令(卸载相应jdk)

yum -y remove java-XXXXXX-XXXX

(3)卸载完成之后Java命令不被识别

  1. 安装JDK1.8:

(1)去官网下载:jdk-8u161-linux-x64.tar.gz

(2)在/usr/local 目录下新建java文件夹,并将jdk-8u161-linux-x64.tar.gz上传至该文件夹

(3)解压到安装目录

cd /usr/local/
mkdir java
cd java
tar -zxvf jdk-8u161-linux-x64.tar.gz

(4)安装完毕之后在/etc/profile文件末尾添加

export JAVA_HOME=/usr/local/java/jdk1.8.0_161
export JRE_HOME=${JAVA_HOME}/jre
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=${JAVA_HOME}/bin:$PATH

(5)使/etc/profile生效

source /etc/profile

(6)检测安装是否成功

[root@master java]# java -version
java version "1.8.0_161"
Java(TM) SE Runtime Environment (build 1.8.0_161-b12)
Java HotSpot(TM) 64-Bit Server VM (build 25.161-b12, mixed mode)

(7)删除安装包,并将java文件夹和/etc/profile 文件复制到其他slave机器上

#删除安装包
rm -f jdk-8u161-linux-x64.tar.gz

#复制到其他slave机器上
scp -r /usr/local/java/ root@slave1:/usr/local/
scp /etc/profile root@slave1:/etc/

scp -r /usr/local/java/ root@slave2:/usr/local/
scp /etc/profile root@slave2:/etc/

scp -r /usr/local/java/ root@slave3:/usr/local/
scp /etc/profile root@slave3:/etc/

#slave机上运行
source /etc/profile

五、安装Hadoop

  1. 提要:

(1)home下新建/home/hadoop目录,上传“hadoop-2.9.0.tar.gz”,放到该目录下

cd home
mkdir hadoop

(2)只在master服务器解压,再复制到slave服务器(scp命令传输)

(3) 解压,输入命令

tar -xzvf hadoop-2.9.0.tar.gz

(4)在/home/hadoop目录下创建数据存放的文件夹,tmp、dfs、dfs/data、dfs/name(hdfs-site.xml文件中会用到)

cd /home/hadoop
mkdir tmp
mkdir dfs
mkdir dfs/data
mkdir dfs/name

(5)创建完成后,删除安装包

cd /home/hadoop
rm -f hadoop-2.9.0.tar.gz
  1. 配置文件:
#这里要涉及到的配置文件有7个:
~/hadoop-2.9.0/etc/hadoop/hadoop-env.sh
~/hadoop-2.9.0/etc/hadoop/yarn-env.sh
~/hadoop-2.9.0/etc/hadoop/slaves
~/hadoop-2.9.0/etc/hadoop/core-site.xml
~/hadoop-2.9.0/etc/hadoop/hdfs-site.xml
~/hadoop-2.9.0/etc/hadoop/mapred-site.xml
~/hadoop-2.9.0/etc/hadoop/yarn-site.xml

以上个别文件默认不存在的,可以复制相应的template文件获得。

(1)配置文件1:hadoop-env.sh
修改JAVA_HOME值(export JAVA_HOME=/usr/local/java/jdk1.8.0_161)

(2)配置文件2:yarn-env.sh
修改JAVA_HOME值(export JAVA_HOME=/usr/local/java/jdk1.8.0_161)

(3)配置/home/hadoop/hadoop-2.9.0/etc/hadoop目录下的slaves,删除默认的localhost,增加2个slave节点:

slave1
slave2
slave3

(4)配置文件4:core-site.xml

<configuration>
    <property>
        <name>fs.default.name</name>
        <value>hdfs://master:9000</value>
    </property>
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/home/hadoop/tmp</value>
    </property>
    <property>
        <name>io.file.buffer.size</name>
        <value>131702</value>
    </property>
</configuration>

(5)配置文件5:hdfs-site.xml

<configuration>
    <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:///home/hadoop/dfs/name</value>
    </property>
    <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:///home/hadoop/dfs/data</value>
    </property>
    <property>
        <name>dfs.replication</name>
        <value>3</value>
    </property>
    <property>
        <name>dfs.namenode.secondary.http-address</name>
        <value>master:9010</value>
    </property>
    <property>
    <name>dfs.webhdfs.enabled</name>
    <value>true</value>
    </property>
</configuration>

(6)配置文件6:mapred-site.xml
因文件夹中不存在 mapred-site.xml,可使用如下命令创建:

cp mapred-site.xml.template mapred-site.xml

其内容为:

<configuration>
    <property>
        <name>mapreduce.framework.name</name>
        <value>yarn</value>
    </property>
</configuration>

(7)配置文件7:yarn-site.xml

<configuration>
    <property>
         <name>yarn.resourcemanager.hostname</name>
         <value>master</value>
    </property>
    <property>
        <name>yarn.nodemanager.aux-services</name>
        <value>mapreduce_shuffle</value>
    </property>
    <property>
        <name>yarn.resourcemanager.address</name>
        <value>master:8032</value>
    </property>
    <property>
        <name>yarn.resourcemanager.scheduler.address</name>
        <value>master:8030</value>
    </property>
    <property>
        <name>yarn.resourcemanager.resource-tracker.address</name>
        <value>master:8031</value>
    </property>
    <property>
        <name>yarn.resourcemanager.admin.address</name>
        <value>master:8033</value>
    </property>
    <property>
        <name>yarn.resourcemanager.webapp.address</name>
        <value>master:8088</value>
    </property>
    <property>
        <name>yarn.nodemanager.resource.memory-mb</name>
        <value>2048</value>
    </property>
</configuration>

(8)将master服务器上配置好的Hadoop复制到各个节点对应位置上,通过scp传送

scp -r /home/hadoop  root@slave1:/home/
scp -r /home/hadoop  root@slave2:/home/
scp -r /home/hadoop  root@slave3:/home/

六、启动Hadoop
提示:在master服务器启动hadoop,各从节点会自动启动,进入/home/hadoop/hadoop-2.9.0目录,hadoop的启动和停止都在master服务器上执行。

  1. 初始化,在hadoop-2.9.3目录下输入命令:
bin/hdfs namenode –format 
  1. 启动命令
sbin/start-all.sh
  1. 输入命令,jps,可以看到相关信息

master上看到

[root@master hadoop-2.9.0]# jps
3920 SecondaryNameNode
4358 Jps
4087 ResourceManager
3721 NameNode

slave上看到

[root@slave1 hadoop]# jps
2994 DataNode
3107 NodeManager
3237 Jps
  1. 停止命令,执行
sbin/stop-all.sh

至此,hadoop配置完成了。

相关文章

网友评论

    本文标题:构建大数据平台(三)Hadoop集群搭建

    本文链接:https://www.haomeiwen.com/subject/lympxftx.html