美文网首页
Hadoop 环境部署(标准Linux部署方式)【完结】

Hadoop 环境部署(标准Linux部署方式)【完结】

作者: ChuancyHuang | 来源:发表于2020-05-20 12:07 被阅读0次
    hadoop环境部署

    前言:Hadoop主要有两种安装方式,即传统解压包方式和Linux标准方式。相对来说,标准Linux部署方式简单易用,而传统部署方式则繁琐易错;标准部署方式隐藏了很多细节,而传统解压包方式有助于读者深入理解Hadoop原理。建议先学习传统部署方式再来学习这个标准部署方式。

    实验环境:

    虚拟机: VMware Workstation Pro,

    Linux版本: CentOS 8,   

    JDK版本:1.8.0,

    hadoop版本: hadoop-2.10.0(先在虚拟机里下载好),

    虚拟机安装时,如果本身物理机内存条和硬盘容量都不大,建议内存2G,硬盘5G,就够了。否则运行起来会非常卡。甚至常常黑屏无法启动。

    集群环境设计:

    Hadoop各结点设计:

    小技巧:执行命令需要管理员权限时,可直接在前加上sudo,这样就可以管理员身份执行了;如果编辑部分系统文件时,无法用“:wq!”更改保存,可以先:q退出,用sudo vi 来编辑文件。

    0.修改机器名hostname

    首先我们安装完VM,安装完CentOS8之后,打开linux,进入命令行终端进行配置,

    修改机器名

    sudo hostnamectl set-hostname cMaster

    显示机器信息:

    hostnamectl

    显示机器信息

    1. jdk安装

    一步安装及配置jdk (仅适用于CentOS),在linux命令行端口,输入

    sudo yum install java-1.8.0-openjdk* -y

     然后输入root用户密码即可安装(安装VM时设置的root密码)

    利用yum工具安装jdk

    接着往下输入

    java -version

    会显示版本信息时即为成功,

    显示jdk版本信息

      而此时yum 安装的jdk位置为 /usr/lib/jvm/java-1.8.0,我们再进行jdk环境变量配置,输入

    vi /etc/profile

    在文件底端添加以下信息(JAVA_HOME=安装路径,如果不同需要根据自己的实际安装路径更改)

     #set java environment  

     export JAVA_HOME=/usr/lib/jvm/java

     export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar:$JAVA_HOME/jre/lib/rt.jar

     export PATH=$PATH:$JAVA_HOME/bin

    配置jdk环境

    (输入:wq!)保存并退出之后,再输入

    source /etc/profile

    使得配置的更改生效

    此时,当输入

    echo $JAVA_HOME

    显示路径/usr/lib/jvm/java-1.8.0的时候,配置已经成功。

    2.集群环境的共性配置

    2.1修改虚拟子网ip

    进入虚拟网络编辑器 以管理员身份更改设置 取消dhcp,设置子网ip

    2.2修改网络配置文件ens33

    (如果你的机器网络服务名称不是ens33的,可以输入ifconfig,第一个英文就是对应的了)

    vi /etc/sysconfig/network-scripts/ifcfg-ens33

    修改增加内容,并保存退出

    更新网络配置 查看结果

    sudo nmcli c reload

    sudo nmcli c down ens33

    sudo nmcli c up ens33

    重启网络服务 查看更新之后的ip,修改成功

    2.3虚拟机克隆

    2.3.1克隆机器

    关闭虚拟机,然后克隆 完整克隆 点击完成,默默等待安装就好。

    2.3.2 重新生成MAC机器地址

    在两台hadoop2,hadoop3克隆虚拟机上重新生成MAC地址

    重新生产MAC地址

    2.3.3 修改新机器的网络配置 

    在两台虚拟机上,都要进行修改机器名hostname修改网络配置文件ens33的步骤,机器名和ipaddr分别如文章开头的集群设计表所示。如hadoop2上,

    sudo hostnamectl set-hostname cSlave0

    vi /etc/sysconfig/network-scripts/ifcfg-ens33  #ipaddr是192.168.58.130

    sudo nmcli c reload

    sudo nmcli c down ens33

    sudo nmcli c up ens33

    再在三台机器上,设置hosts映射表

    vi /etc/hosts

    加入以上三行映射

    之后可以在三台机器上执行ping命令,检验是否互通了。如在(hadoop1)cMaster上执行(Ctrl + C 可停止ping操作)

    ping cSlave0

    3. 设置免密码登陆(三台机器都需要进行分别设置)

    3.1 创建hadoop用户 

    创建 hadoop 用户(需要root权限,我设置的密码是简单的一个空格“space”)

    sudo useradd hadoop

    sudo passwd hadoop

    3.2修改用户 hadoop 的权限

    (用户权限的修改需要在 /etc/sudoers 下配置, 将 hadoop 的权限修改最高ALL)

    sudo vi /etc/sudoers

    在以上位置加上下面一行字符串

    hadoop    ALL=(ALL)    NoPASSWD:ALL

    3.3 切换到 hadoop用户

    su hadoop

    切换hadoop用户

    3.4免密码登陆设置

    生成公钥(要求输入设置密码时直接回车就是无密码登录了)

    ssh-keygen -t rsa

    三个绿框地方直接回车,其他地方看情况输入

    将公钥拷贝到其他两台机器(期间要求输入的密码是hadoop的用户密码)

    ssh-copy-id hadoop@cSlave0

    ssh-copy-id hadoop@cSlave1

    拷贝密钥成功

    3.5 ssh登录测试(登录其他两台机器,再回来本机)

    ssh hadoop@cSlave0

    ssh hadoop@cSlave1

    ssh hadoop@cMaster

    ssh登录成功

    4. hadoop安装与配置

    4.1 安装hadoop

        4.1.1 新建hadoop的安装目录,设置hadoop用户对 /usr/local/src和 /usr/local/hadoop 的权限, -R 表示级联设置

    cd /usr/local

    sudo chown -R hadoop:hadoop /usr/local/src

    sudo mkdir hadoop

    sudo chown -R hadoop:hadoop hadoop

    ll

    设置权限成功

        4.1.2 将hadoop压缩文件设置为 可执行文件

    (这里的压缩包在克隆以前已经下载到了/home/hadoop/下载目录下)

    sudo chmod +x hadoop-2.7.5.tar.gz

    hadoop压缩包已经由红色转变为绿色


        4.1.3 解压hadoop配置包

    准备解压 解压到hadoop安装目录

        4.1.4 配置环境变量

    vi /etc/profile

    export HADOOP_HOME="/usr/local/hadoop/hadoop-2.10.0"

    export PATH=$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$PATH

    profile文件底端加入以上两行配置,然后用source命令使得配置更新生效

    source /etc/profile

        4.1.5 查看结果:

    echo $HADOOP_HOME

    hadoop环境变量配置成功会显示路径

    4.2 配置cMaster的hadoop

    (下面的操作为:先配置其中一台机器(如cMaster的)文件,然后直接复制到其他两台机器再修改,否则每台机器都要敲的话,容易敲错)

        4.2.1  编辑hadoop-env.sh 

    vi ${HADOOP_HOME}/etc/hadoop/hadoop-env.sh

    这个地方 JAVA_HOME为你安装jdk的时候的 JAVA_HOME

    "/usr/lib/jvm/java-1.8.0"

    配置JAVA_HOME

        4.2.2 编辑core-site.xml

    vi ${HADOOP_HOME}/etc/hadoop/core-site.xml

    <property>

            <name>fs.defaultFS</name>

            <value>hdfs://cMaster:8020</value>

    </property>

    <property>

            <name>hadoop.tmp.dir</name>

            <value>/opt/data/tmp</value>

    </property>

    <property>

            <name>dfs.namenode.name.dir</name>

            <value>file://${hadoop.tmp.dir}/dfs/name</value>

    </property>

    <property>

            <name>dfs.datanode.data.dir</name>

            <value>file://${hadoop.tmp.dir}/dfs/data</value>

    </property>

    设置datanode、namenode、tmp的目录路径

        4.2.3 创建tmp、NameNode和DataNode目录,并且给hadoop用户设置权限

    sudo mkdir -p /opt/data/tmp

    sudo mkdir -p /opt/data/tmp/dfs/name

    sudo mkdir -p /opt/data/tmp/dfs/data

    sudo chown -R hadoop:hadoop /opt/data/tmp

    sudo chown -R hadoop:hadoop /opt/data/tmp/dfs/name

    sudo chown -R hadoop:hadoop /opt/data/tmp/dfs/data

        4.2.4 编辑hdfs-site.xml,将cSlave1设置为secondary name node。

    vi ${HADOOP_HOME}/etc/hadoop/hdfs-site.xml

    <property>

      <name>dfs.namenode.secondary.http-address</name>

      <value>cSlave1:50090</value>

    </property>

    将cSlave1设置为secondary name node

        4.2.5 编辑slaves,设置三台机器为datanode

    vi ${HADOOP_HOME}/etc/hadoop/slaves

    cMaster

    cSlave0

    cSlave1

    将三台机器都设置为datanode

        4.2.6 编辑yarn-site.xml,将cSlave0设置为resource manager

    vi ${HADOOP_HOME}/etc/hadoop/yarn-site.xml

    <property>

            <name>yarn.nodemanager.aux-services</name>

            <value>mapreduce_shuffle</value>

    </property>

    <property>

            <name>yarn.log-aggregation-enable</name>

            <value>true</value>

    </property>

    <property>

            <name>yarn.resourcemanager.hostname</name>

            <value>cSlave0</value>

    </property>

    <property>

            <name>yarn.log-aggregation.retain-seconds</name>

            <value>106800</value>

    </property>

    <property>

            <description>The http address of th RM web application.</description>

            <name>yarn.resourcemanager.webapp.address</name>

            <value>cSlave0:8088</value>

    </property>

    将cSlave0设置为resource manager

        4.2.7 编辑mapred-site.xml,将cSlave1设置为job history server

    cd ${HADOOP_HOME}

    cp etc/hadoop/mapred-site.xml.template etc/hadoop/mapred-site.xml

    vi ${HADOOP_HOME}/etc/hadoop/mapred-site.xml

    <property>

                    <name>mapreduce.framework.name</name>

                    <value>yarn</value>

            </property>

            <property>

                    <name>mapreduce.jobhistory.address</name>

                    <value>cSlave1:10020</value>

            </property>

            <property>

                    <name>mapreduce.jobhistory.webapp.address</name>

                    <value>cSlave1:19888</value>

            </property>

    将cSlave1设置为job history server

    4.3 给cSlave0、cSlave1分发Hadoop配置

        4.3.1 分别在cSlave0、cSlave1创建hadoop、tmp、nanmenode和datanode目录。

    sudo mkdir hadoop 

    sudo mkdir -p /opt/data/tmp

    sudo mkdir -p /opt/data/tmp/dfs/name

    sudo mkdir -p /opt/data/tmp/dfs/data

    sudo chown -R hadoop:hadoop hadoop 

    sudo chown -R hadoop:hadoop /opt/data/tmp

    sudo chown -R hadoop:hadoop /opt/data/tmp/dfs/name

    sudo chown -R hadoop:hadoop /opt/data/tmp/dfs/data

    4.3.2 将cMaster的hadoop安装目录下的文件拷贝到cSlave0、cSlave1

    该步骤需要较长时间(20min左右),请耐心等待

    scp -r ${HADOOP_HOME}/ cSlave0:/usr/local/hadoop

    scp -r ${HADOOP_HOME}/ cSlave1:/usr/local/hadoop

    4.3.3 在cMaster上格式化namenode(不要二次格式化,执行一次即可,否则datanode自行查贴解决)

    cd ${HADOOP_HOME}

    ./bin/hdfs namenode -format

    4.4 启动hadoop

        4.4.1 关闭三台机器的防火墙.

    sudo systemctl stop firewalld.service

        4.4.2 在cMaster上启动 dfs

    cd ${HADOOP_HOME}/sbin

     ./start-dfs.sh

        4.4.3 在cSlave0上 启动 yarn

    cd ${HADOOP_HOME}/sbin

     ./start-yarn.sh

        4.4.4 在cSlave1 启动 history server

    cd ${HADOOP_HOME}/sbin

    mr-jobhistory-daemon.sh start historyserver

    5 .Hadoop部署结果验证

    5.1 查看HDFS页面:

    http://cMaster:50070

    cSlave0的FireFox截图

    5.2 查看YARN Web 页面

    http://cSlave0:8088/cluster

    cSlave0的FireFox截图

    5.3 测试job

    运行MapReduce程序 wordCount,编辑测试文件,随便写几个单词或者一句英文

    sudo vi /opt/data/wc.input

    Future astronauts could travel with emotional support robots.

    输入随意一句英文

    在HDFS上创建目录并上传wc.input

    cd ${HADOOP_HOME}/bin

    ./hdfs dfs -mkdir /input

    ./hdfs dfs -put /opt/data/wc.input /input/wc.input

    上传完毕

    运行wordcount

      ./yarn jar ../share/hadoop/mapreduce/hadoop-mapreduce-examples-2.10.0.jar wordcount /input/wc.input /output

    计算完毕

    结果查看:    

    ./hdfs dfs -ls /output

    结果已生成

    ./hdfs dfs -cat /output/part-r-00000

    显示结果

    部署成功(撒花)


    参考文章:

    1.Hadoop 环境搭建 全集 超详细, 新手必看

    2.Hadoop集群搭建好后无法启动datanode

    3.Hadoop快速入门

    4.《云计算(第三版)刘鹏 主编》电子工业出版社

    5.关于虚拟机VMware Workstation Pro繁忙的解决方法

    6.Linux跨用户copy文件

    7.关于Hadoop进行namenode格式化时ERROR conf.Configuration: error parsing conf xxx.xml错误的问题

    8.


    (补充)部分问题:

    1.网络不可用,检查静态ip设置无问题,但是ping不通,网页打不开

    ping超时 找不到服务器

    有可能是NATService被关闭了

    运行NATService就可以了

    2.启动dfs的时候,密码还没输入就弹出了信息

    等待的过程中,启动消息迟迟不打印,可以按一个回车

    3.jps查看到datanode没有启动

    原因可能是datanode二次格式化导致的版本id不一样,需要统一id才能够同时启动。

    hadoop的升级功能需要datanode在它的版本文件里存储一个永久性的clusterID,当datanode启动时会检查并匹配namenode的版本文件里的clusterID,如果两者不匹配,就会出现"Incompatible clusterIDs"的异常。

    每次格式化namenode都会生成一个新的clusterID, 如果只格式化了namenode,没有格式化此datanode, 就会出现”java.io.IOException: Incompatible namespaceIDs“异常。

    所以现在修改统一clusterID,

    cd /opt/data/tmp/dfs/data/current

    vi VERSION

    三台机器统一id

    然后再查看再启动一次datanode

    start-dfs.sh

    datanode启动成功

    相关文章

      网友评论

          本文标题:Hadoop 环境部署(标准Linux部署方式)【完结】

          本文链接:https://www.haomeiwen.com/subject/gkfgohtx.html