美文网首页linux&githubR
Hadoop3.2.0环境搭建(Ubuntu18.04)

Hadoop3.2.0环境搭建(Ubuntu18.04)

作者: 一雨心茗 | 来源:发表于2019-05-07 18:49 被阅读152次

    前言

    在搭建过程中需要挺多坑,借鉴网上很多教程,因此记录下来,方便学习整理。

    实验环境

    主机系统:windows 10
    虚拟机:VMware12( Ubuntu18.04)
    软件版本:Hadoop 3.2.0 (jdk 1.8.0_131)

    环境搭建

    1、软件包准备

    hadoop在 https://archive.apache.org/dist/hadoop/common/ 选择最新版本下载即可;jdk在 https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 选择下载即可。准备好两个安装包就可以开始了!

    2、安装软件

    2.1安装jdk

    查看系统已安装的jdk

    $:java -version
    

    结果如果是OpenJDK,那么久需要先卸载(因为这个坑,我重新安装了好几次T^T),根据网上的说明,OpenJDK与官网的JDK存在差异可能会出现一些麻烦(在这里没有验证具体的差异,本文在意环境搭建不详细讨论)

    删除OpenJDK:

    $:sudo apt remove openjdk*
    

    解压jdk-8u131-linux-x64.tar.gz文件,并且移到目录/usr/local/java:

    $:tar -zxvf jdk-8u131-linux-x64.tar.gz
    $:sudo mv ~/jdk 1.8.0_131 /usr/local/java
    

    这个版本的jdk只需要解压,然后设置环境变量就可以使用了:

    $:sudo vim /etc/profile
    
    在末尾添加以下环境变量
    export JAVA_HOME=/usr/local/java
    export JRE_HOME=$JAVA_HOME/jre
    export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
    export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH
    
    添加完后退出,然后使修改生效
    $:source /etc/profile
    
    (如果权限不足修改,可以切换回到root用户执行,再切回普通用户)
    
    

    查看当前java版本

    $:java -version (或者javac -version)
    
    jdk设置成功

    2.2安装并设置ssh和pdsh

    ssh和pdsh分别是hadoop安装必须软件和建议安装软件,通过ssh会对所有传输的数据进行加密,防止远程管理系统时信息外泄的问题。

    $:sudo apt install ssh pdsh
    

    (在这里需要注意的是在启动hdfs时可能会报“ rcmd: socket: Permission denied” 这个错误,问题的解决是可创建一个rcmd_default文件,在里面填写ssh)

    $:echo "ssh" > /etc/pdsh/rcmd_defalut
    

    (还需要注意一点后面会出现提醒 “ ssh exit with code 1”,网上有个方法是写入ssh时添加一个回车换行,不过我试了也没起效果,但是不影响使用,可以后面再详细研究一下)

    接下来,设置免密码登录ssh:

    产生SSH Key:
    $:ssh-keygen -t rsa -P ' ' -f ~/.ssh/id_rsa
    
    会产生两个文件id_rsa和id_rsa.pub,将Key放置到许可文件中
    $:cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
    $ chmod 0600 ~/.ssh/authorized_keys
    
    验证是否成功:
    $:ssh localhost
    
    ssh设置成功

    2.3配置hdfs

    首先需要解压hadoop-3.2.0.tar.gz并且移到/usr/local/hadoop

    $:tar -zxvf hadoop-3.2.0.tar.gz
    $:sudo mv ~/hadoop-3.2.0 /usr/local/hadoop
    

    修改hadoop-env.sh文件,在里面指定JAVA_HOME的具体路径:

    $ sudo vim /usr/local/hadoop/etc/hadoop/hadoop-env.sh
    在以下位置添加java路径:
    # The java implementation to use. By default, this environment
    # variable is REQUIRED on ALL platforms except OS X!
    export JAVA_HOME=/usr/local/java
    

    接下来开始安装伪分布式hadoop,编辑修改core-site.xml文件

    $ sudo vim /usr/local/hadoop/etc/hadoop/core-site.xml
    
    在<configuration></configuration>添加以下信息:
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://localhost:9000</value>
        </property>
    

    还需要修改hdfs-site.xml文件

    $ sudo vim /usr/local/hadoop/etc/hadoop/hdfs-site.xml
    
    在<configuration></configuration>添加以下信息:
        <property>
            <name>dfs.replication</name>
            <value>3</value>
        </property>
    

    现在开始启动hdfs,首先格式化文件系统(注意:在首次安装的时候格式化一次即可!!!因为会删除里面所有文件)

    $:/usr/local/hadoop/bin/hdfs namenode -format
    
    格式化成功

    运行NameNode和DataNode

    $:/usr/local/hadoop/sbin/start-dfs.sh
    

    用jps可以查看结果,若出现权限问题可以通过以下改变权限

    $:sudo chown <username>:root -R /usr/local/hadoop
    

    然后可以访问NameNode网站 http://localhost:9870/

    登录成功

    接下来配置yarn,用来管理MapReduce任务。修改mapred-site.xml和yarn-site.xml文件

    先停止守护进程:
    $:/usr/local/hadoop/sbin/stop-dfs.sh
    
    然后修改mapred-site.xml文件:
    $ sudo vim /usr/local/hadoop/etc/hadoop/mapred-site.xml
    
    在<configuration></configuration>添加以下信息:
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
        </property>
        <property>
                <name>mapreduce.application.classpath</name>  
                <value>$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/*:$HADOOP_MAPRED_HOME/share/hadoop/mapreduce/lib/*</value>
        </property>
    
    修改yarn-site.xml文件:
    $ sudo vim /usr/local/hadoop/etc/hadoop/yarn-site.xml
    
    在<configuration></configuration>添加以下信息:
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
       </property>
       <property>
                <name>yarn.nodemanager.env-whitelist</name>        
                <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
       </property>
    

    配置完文件后,就可以启动服务

    $:/usr/local/hadoop/sbin/start-yarn.sh
    

    通过jps查看成功后就可以通过 http://localhost:8088/ 查看MapReduce管理界面

    登录成功

    3、总结

    至此,hadoop的环境就搭建完毕,可以进行机器学习等方面的训练。虽然遇到很多坑,但是通过查阅资料也可以解决,如果遇到一些不能一下子解决的,可以通过查询hadoop文件夹下的logs文件夹里面的日志信息可以得到error详细的说明。

    相关文章

      网友评论

        本文标题:Hadoop3.2.0环境搭建(Ubuntu18.04)

        本文链接:https://www.haomeiwen.com/subject/qjbyoqtx.html