美文网首页
【hadoop-部署】Hadoop2.x HA集群搭建

【hadoop-部署】Hadoop2.x HA集群搭建

作者: 粮忆雨 | 来源:发表于2018-11-25 16:24 被阅读0次

    一、安装环境准备

    操作系统:centos7
    三台主机
    hdc-data4:192.168.163.54
    hdc-data5:192.168.163.55
    hdc-data6:192.168.163.56
    【安装环境准备每台集群机器一样的操作,或者使用scp远程拷贝】

    0、创建新的虚拟机【可选】

    根据安装向导创建一台虚拟机主机(其他主机使用克隆)。然后配置静态ip和主机名。重启网络服务。
    step1: 配置IP

    vi /etc/sysconfig/network-scripts/ofcfg-ens33
    
    image.png

    step2: 修改主机名

    vi /etc/hostname
    

    step3: 使用 init 6命令重启主机,使用ip addr查看ip

    image.png

    step4: 克隆主机
    当前主机关机,选择虚拟机 ->管理->克隆。克隆完成修改IP和主机名重启即可。

    第三步时选择【创建完整克隆(F)】 image.png

    1、主机名IP映射配置

    vi /etc/hosts
    #添加如下地址映射
    192.168.163.54 hdc-data4
    192.168.163.55 hdc-data5
    192.168.163.56 hdc-data6
    

    2、SSH免密登录配置

    ssh-keygen
    ssh-copy-id -i ~/.ssh/id_rsa.pub root@hdc-data4
    ssh-copy-id -i ~/.ssh/id_rsa.pub root@hdc-data5
    ssh-copy-id -i ~/.ssh/id_rsa.pub root@hdc-data6
    
    image.png

    3、关闭及禁止防火墙

    systemctl stop firewalld.service
    systemctl disable firewalld.service
    

    4、关闭SELinux

    SELinux(Security-Enhanced Linux) 是美国国家安全局(NSA)对于强制访问控制的实现,是 Linux历史上最杰出的新安全子系统。NSA是在Linux社区的帮助下开发了一种访问控制体系,在这种访问控制体系的限制下,进程只能访问那些在他的任务中所需要文件。

    vi /etc/sysconfig/selinux
    #修改以下内容
    SELINUX=disabled
    
    image.png

    5、开启NTP服务

    yum install -y ntp
    systemctl enable ntpd 
    systemctl start ntpd
    

    6、安装JDK

    下载地址:https://www.oracle.com/technetwork/cn/java/javase/downloads/jdk8-downloads-2133151-zhs.html

    mkdir -p /opt/java
    tar -zxvf jdk-8u181-linux-x64.tar.gz -C /opt/java/
    vi /etc/profile
    
    export JAVA_HOME=/opt/java/jdk1.8.0_181
    export JRE_HOME=$JAVA_HOME/jre
    export CLASSPATH=.:$JAVA_HOME/lib:$JAVA_HOME/jre/lib
    export PATH=$PATH:$JAVA_HOME/bin
    

    远程分发到其他服务器

    scp -r /opt/java/jdk1.8.0_181/ root@hdc-data5:/opt/java/
    scp -r /opt/java/jdk1.8.0_181/ root@hdc-data6:/opt/java/
    
    scp /etc/profile root@hdc-data5:/etc/
    scp /etc/profile root@hdc-data6:/etc/
    
    source /etc/profile
    

    二、安装zookeeper

    mkdir -p /opt/apps
    tar -zxvf zookeeper-3.4.6.tar.gz -C /opt/
    mkdir -p /data/zookeeper/data
    mkdir -p /data/zookeeper/log
    
    #每台机器myid不能相同,1,2,3...以此类推
    echo 1 > /data/zookeeper/data/myid
    
    vi /opt/zookeeper-3.4.6/conf/zoo.cfg
    

    zoo.cfg

    tickTime=2000
    initLimit=10
    syncLimit=5
    dataDir=/data/zookeeper/data
    dataLogDir=/data/zookeeper/log
    clientPort=2181
    server.1=hdc-data4:2888:3888
    server.2=hdc-data5:2888:3888
    server.3=hdc-data6:2888:3888
    
    ln -s /opt/zookeeper-3.4.6/ /opt/apps/zookeeper
    vi /etc/profile
    

    /etc/profile

    export ZOOKEEPER_HOME=/opt/apps/zookeeper
    export PATH=$PATH:$ZOOKEEPER_HOME/bin
    

    三、安装hadoop

    1、下载解压hadoop

    tar -zxvf hadoop-2.7.2.tar.gz -C /opt
    ln -s /opt/hadoop-2.7.2/ /opt/apps/hadoop
    vi /etc/profile
    

    /etc/profile

    export HADOOP_HOME=/opt/apps/hadoop
    export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
    

    2、修改hadoop配置文件

    需要修改/opt/hadoop-2.7.2/etc/hadoop/下hadoop-env.sh、core-site.xml、hdfs-site.xm、yarn-site.xml、mapred-site.xml、slaves

    cd /opt/hadoop-2.7.2/etc/hadoop/
    mv mapred-site.xml.template mapred-site.xml
    

    hadoop-env.sh

    export JAVA_HOME=/opt/java/jdk1.8.0_181 --第25行
    

    core-site.xml

    <!-- 指定hdfs的nameservice为mycluster -->
    <property>
        <name>fs.defaultFS</name>
        <value>hdfs://mycluster</value>
    </property>
    
    <!--指定zookeeper地址-->
    <property>
        <name>ha.zookeeper.quorum</name>
        <value>hdc-data4:2181,hdc-data5:2181,hdc-data6:2181</value>
    </property>
    
    <!--指定hadoop数据临时存放目录-->
    <property>
        <name>hadoop.tmp.dir</name>
        <value>/data/hadoop</value>
    </property>
    

    hdfs-site.xml

    <!--指定hdfs的nameservice为mycluster,需要和core-site.xml中的保持一致 -->
    <property>
        <name>dfs.nameservices</name>
        <value>mycluster</value>
    </property>
    
    <!-- mycluster下面有两个NameNode,分别是nn1,nn2 -->
    <property>
        <name>dfs.ha.namenodes.mycluster</name>
        <value>nn1,nn2</value>
    </property>
    
    <!-- nn1的RPC通信地址 -->
    <property>
        <name>dfs.namenode.rpc-address.mycluster.nn1</name>
        <value>hdc-data4:8020</value>
    </property>
    
    <!-- nn2的RPC通信地址 -->
    <property>
        <name>dfs.namenode.rpc-address.mycluster.nn2</name>
        <value>hdc-data5:8020</value>
    </property>
    
    <!-- nn1的http通信地址 -->
    <property>
        <name>dfs.namenode.http-address.mycluster.nn1</name>
        <value>hdc-data4:50070</value>
    </property>
    
    <!-- nn2的http通信地址 -->
    <property>
        <name>dfs.namenode.http-address.mycluster.nn2</name>
        <value>hdc-data5:50070</value>
    </property>
    
    <!-- 指定NameNode的元数据在JournalNode上的存放位置 -->
    <property>
        <name>dfs.namenode.shared.edits.dir</name>
        <value>qjournal://hdc-data4:8485;hdc-data5:8485;hdc-data6:8485/mycluster</value>
    </property>
    
    <!-- 开启NameNode故障时自动切换 -->
    <property>
        <name>dfs.ha.automatic-failover.enabled</name>
        <value>true</value>
    </property>
    
    <!-- 配置失败自动切换实现方式 -->
    <property>
        <name>dfs.client.failover.proxy.provider.mycluster</name>
        <value>org.apache.hadoop.hdfs.server.namenode.ha.ConfiguredFailoverProxyProvider</value>
    </property>
    
    <!-- 配置隔离机制,如果ssh是默认22端口,value直接写sshfence即可,否则sshfence(host:port)  -->
    <property>
        <name>dfs.ha.fencing.methods</name>
        <value>sshfence</value>
    </property>
    
    <!-- 使用隔离机制时需要ssh免登陆 -->
    <property>
        <name>dfs.ha.fencing.ssh.private-key-files</name>
        <value>/root/.ssh/id_rsa</value>
    </property>
    
    <!-- 指定JournalNode在本地磁盘存放数据的位置 -->
    <property>
        <name>dfs.journalnode.edits.dir</name>
        <value>/data/hadoop/journalnode</value>
    </property>
    

    yarn-site.xml

    <!-- 指定YARN的老大(ResourceManager)的地址 -->
    <property>
        <name>yarn.resourcemanager.hostname</name> 
        <value>hdc-data4</value>
    </property>
    
    <!-- reducer获取数据的方式 -->
    <property>
        <name>yarn.nodemanager.aux-services</name> 
        <value>mapreduce_shuffle</value>
    </property>
    

    mapred-site.xml

    <!-- 指定mr运行在yarn上 -->
    <property>
        <name>mapreduce.framework.name</name> 
        <value>yarn</value>
    </property>
    

    slaves

    hdc-data4
    hdc-data5
    hdc-data6
    

    3、同步到集群其他主机

    拷贝/etc/profile文件和zookeeper、hadoop目录(保持集群hadoop配置文件一致)

    scp /etc/profile root@hdc-data5:/etc/
    scp /etc/profile root@hdc-data6:/etc/
    
    scp -r /opt/zookeeper-3.4.6 root@hdc-data5:/opt/
    scp -r /opt/zookeeper-3.4.6 root@hdc-data6:/opt/
    
    scp -r /opt/hadoop-2.7.2 root@hdc-data5:/opt/
    scp -r /opt/hadoop-2.7.2 root@hdc-data6:/opt/
    

    并在被同步的主机建立软连接

    ln -s /opt/zookeeper-3.4.6/ /opt/apps/zookeeper
    ln -s /opt/hadoop-2.7.2/ /opt/apps/hadoop
    

    注:若被同步主机未执行 echo [1,2,3...] > /data/zookeeper/data/myid分配zookeeper id,则需要分配唯一的id。
    每台集群服务器执行 source /etc/profile使得环境变量生效

    4、启动及初始化(严格按照下面步骤执行)

    • 1> 在三个节点上执行如下命令启动zookeeper,并分别查看节点状态,正常情况下一个leader和两个follower。
    zkServer.sh start
    zkServer.sh status
    
    • 2> hdc-data4(master)节点上启动journalnode集群 。用jps检验集群节点多了JournalNode进程。
    hadoop-daemons.sh start journalnode
    
    • 3>hdc-data4(master)上格式化HDFS
    hdfs namenode -format
    
    • 4>保持主从master历史日志一致
    scp -r /data/hadoop/dfs/name root@hdc-data5:/data/hadoop/dfs/
    
    • 5>hdc-data4(master)上格式化ZK
    hdfs zkfc -formatZK
    
    • 6>hdc-data4(master)上启动HDFS和YARN
    start-all.sh
    
    • 7>jsp查看启动进程是否正常,并通过50070和8088端口在WEBUI查看。


      image.png

    相关文章

      网友评论

          本文标题:【hadoop-部署】Hadoop2.x HA集群搭建

          本文链接:https://www.haomeiwen.com/subject/kqepqqtx.html