美文网首页
Hadoop2伪分布式安装部署

Hadoop2伪分布式安装部署

作者: 墙角儿的花 | 来源:发表于2016-11-16 22:07 被阅读0次

    安装

    • 操作系统

      在centos6.4和mac os 10.10下都测试通过,以下以centos6.4环境为例。

    • 安装JDK

      安装版本hotspot jdk8 64bit,安装路径/home/rbg/tools/jdk8

    • 安装hadoop

      hadoop目前最新的稳定版是2.7.3,下载链接http://hadoop.apache.org/releases.html,下载下来是个压缩包hadoop-2.7.3.tar.gz。

      通过解压命令 tar xzf hadoop-2.7.3.tar.gz 解压到/home/rbg/tools/hadoop273

    • 环境变量

      进入home路径,找到并编辑文件.bash_profile,如果没有则通过touch命令新建,加入

      export JAVA_HOME=/home/rbg/tools/jdk8
      export HADOOP_HOME=$HOME/tools/hadoop273
      export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$JAVA_HOME/bin
      

      通过source .bash_profile应用新的环境变量

    • 检查是否安装成功

      运行hadoop version

      如果输出Hadoop 2.7.3字样,说明安装成功。

      注:如果出现/lib/ld-linux.so.2: bad ELF interpreter: No such file or directory 错误提示,需要通过通过yum install安装 glibc.i686

    配置伪分布式

    hadoop的运行有三种模式:局部、伪分布式、分布式。

    局部模式所有程序都运行在一个jvm中,适合开发环境,用来运行或调试MapReduce程序。

    伪分布模式多个守护进程同时单独运行,但都运行在一个机器。

    分布式模式守护进程运行于集群。

    对了解学习hadoop而言,伪分布式是合适的选择,因为hadoop本身的运行上两者没有区别。

    进入/home/rbg/tools/hadoop273/etc/hadoop,该路径是hadoop默认的配置文件路径。

    配置hadoop

    配置文件系统

    设置hdfs文件系统的url,打开core.site.xml添加如下设置:

    <configuration>
    <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000/</value>
    </property>
    </configuration>
    

    配置hdfs

    设置复制份数,打开hdfs-site.xml,添加如下配置:

    <configuration>
    <property>
    <name>dfs.replication</name>
    <value>1</value>
    </property>
    </configuration>
    

    配置mapreduce

    mapreduce采用yarn框架,打开mapred-site.xml,添加如下配置:

    <configuration>
    <property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
    </property>
    </configuration>
    

    配置yarn

    设置资源管理器地址和启动shuffle服务,打开yarn-site.xml,添加如下配置:

    <configuration>
    <property>
    <name>yarn.resourcemanager.address</name>
    <value>localhost:8032</value>
    </property>
    <property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
    </property>
    </configuration>
    

    配置ssh

    hadoop需要通过ssh在分布式或伪分布式下启动守护进程,因此,在只有一个机器的伪分布式下要保证能ssh localhost而不用通过密码进行登录。

    通过如下命令生成密钥文件:

    ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
    

    将公钥添加到authorized_keys:

    cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
    

    通过ssh localhost登录,如果不需要输入密码说明配置成功。

    注:如果ssh localhost提示输入密码,可检查.ssh和authorized_keys的权限模式是否分别是0700和0600。否则通过chmod 0700 .ssh和chmod 0600 .ssh/authorized_keys修改。

    格式化文件系统

    初次使用hdfs前需要格式化文件系统:

    hdfs namenode -format
    

    注:如报unknownhost错误,通过hostname命令查看本机名称,查看/etc/hosts中是否存在名称和ip间的映射,该处映射为127.0.0.1。

    启动和关闭

    启动hdfs、yarn、job历史服务:

    start-dfs.sh
    start-yarn.sh
    mr-jobhistory-daemon.sh start historyserver
    

    通过jps可以查看到如下进程:

    NodeManager
    JobHistoryServer
    ResourceManager
    DataNode
    SecondaryNameNode
    NameNode
    

    关闭:

    mr-jobhistory-daemon.sh stop historyserver
    stop-yarn.sh
    stop-dfs.sh
    

    相关文章

      网友评论

          本文标题:Hadoop2伪分布式安装部署

          本文链接:https://www.haomeiwen.com/subject/qemrpttx.html