Mac OS X EI Captain 安装 Hadoop 3.

作者: 牧羊的小狼 | 来源:发表于2017-03-04 22:12 被阅读3461次

    2017年1月,Apache Hadoop 提供了 3.0.0-alpha2 版本,先前在安装 2.7.3 的时候折腾了半天,这次更新后小狼也顺便重新梳理了一下安装过程,给需要的同学做个参考。我知道我知道,就是想让 Hadoop 先跑起来是吧,来来来~

    安装时参考了 Hadoop: Setting up a Single Node Cluster
    以及 Setting up Hadoop 2.7.1 on Mac OS X Yosemite & Hadoop Eclipse Setup
    以及 在Mac下安装Hadoop的坑

    此外,作为小白,我把自己在安装中遇到的一些问题做了备注。

    1. PREREQUISITES 安装前的准备

    a) Java

    Hadoop 2.7 以及后续版本需要 Java 7 以上版本的支持, 参见 Hadoop Java Versions。打开 Terminal 输入以下代码查看 Java 的版本:

    • Terminal 可用快捷键 command+space 中搜索 "terminal" 打开。
    $ java -version
    

    如果已经装了Java,你会看到类似酱紫结果:

    java version "1.8.0_121"
    Java(TM) SE Runtime Environment (build 1.8.0_121-b13)
    Java HotSpot(TM) 64-Bit Server VM (build 25.121-b13, mixed mode)
    

    如果没有,会要求你安装,你可以去这里下载 Java SE Downloads,或者用 Homebrew 安装。我是用 Homebrew 安装了最新版本 Java。

    • 在上面的链接中有 Homebrew 的安装和使用方法,这里简单说一下,依次输入下面两行代码,第一个用来安装 Homebrew,第二个用来安装 Java。
    $ /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
    
    $ brew install java
    

    b) SSH

    首先在系统里打开远程登录,位置在 System Preference -> Sharing 中,左边勾选 Remote Login,右边选择 All Users

    • 系统偏好可用快捷键 command+space 中搜索 "System Preference" 打开。

    在 Terminal 里输入以下代码查看能不能免密 ssh 到 localhost:

    $ ssh localhost
    

    可以的话会返回类似如下结果:

    Last login: Sat Mar  4 19:52:15 2017
    

    如果不行输入:

    $ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
    $ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
    $ chmod 0600 ~/.ssh/authorized_keys
    

    2. DOWNLOAD HADOOP 下载 Hadoop

    官方镜像 下载 hadoop-3.0.0-alpha2 的压缩包,然后解压到你爱的路径。

    • 如果用 Homebrew 目前会自动安装 Hadoop 2.7.3 版本,且安装路径为 /usr/local/Cellar/Hadoop,为下文叙述方便我们采用直接下载的方式。

    3. CONFIGURATION 配置

    还记得你解压的 Hadoop 包吗?找到它,进入 etc/hadoop/ 下,我们需要对其中的文件做一些改动。我是用 Sublime Text 编辑的,强烈推荐。也可以在 Terminal 中用 nano 命令编辑,新手不推荐。

    a) hadoop-env.sh

    输入以下代码看看你把 Java 装到哪里了:

    $ /usr/libexec/java_home
    

    你会看到类似酱紫结果:

    /Library/Java/JavaVirtualMachines/jdk1.8.0_121.jdk/Contents/Home
    

    打开 hadoop-env.sh 文件(位置 etc/hadoop/),找到 # export JAVA_HOME=,改参数如下:

    export JAVA_HOME={your java home directory}
    
    • {your java home directory} 改成你上面查到的 Java 路径,记得去掉注释 #。比如 export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_121.jdk/Contents/Home

    然后进到 Hadoop 解压包所在的路径:

    $ cd {your hadoop distribution directory}
    
    • {your hadoop distribution directory} 改成你解压的 Hadoop 路径,比如 cd /Users/Tracy/Desktop/HADOOP/hadoop-3.0.0-alpha2
    • 一个简单的方式知道你的 Hadoop 路径:查看 hadoop-3.0.0-alpha2 文件夹里的任意文件或子文件夹的信息。比如,右键单击 etc 文件夹,选择 Get Info,直接复制路径 Where 的内容即可,Terminal 会自动转化为正确的形式。

    接着输入以下代码:

    $ bin/hadoop
    

    你应该会看到一段关于 Hadoop 的各种信息。

    接下来你就可以建立以下三种模式的 Hadoop 集群了:

    1. Standalone mode 独立式
    2. Pseudo-distributed mode 伪分布式
    3. fully-distributed mode 全分布式

    我们建立第二种,让 Hadoop 做为后台应用运行在本地机器,模拟小集群。

    b) core-site.xml

    打开 core-site.xml 文件(位置 etc/hadoop/),改参数如下:

    <configuration>
        <property>
            <name>fs.defaultFS</name>
            <value>hdfs://localhost:9000</value>
        </property>
    </configuration>
    

    c) hdfs-site.xml

    打开 hdfs-site.xml 文件(位置 etc/hadoop/),改参数如下:

    <configuration>
        <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>
    </configuration>
    

    d) mapred-site.xml

    打开 mapred-site.xml 文件(位置 etc/hadoop/),改参数如下:

    <configuration>
        <property>
            <name>mapreduce.framework.name</name>
            <value>yarn</value>
        </property>
    </configuration>
    
    • 如果文件后缀是 .xml.example,改为 .xml

    e) yarn-site.xml

    打开 yarn-site.xml 文件(位置 etc/hadoop/),改参数如下:

    <configuration>
        <property>
            <name>yarn.nodemanager.aux-services</name>
            <value>mapreduce_shuffle</value>
        </property>
        <property>
            <name>yarn.nodemanager.env-whitelist</name>
            <value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
        </property>
    </configuration>
    

    4. EXECUTION 走你

    接下来就是格式化后启动 HDFS 和 YARN,先输入以下代码定位到你的 Hadoop 路径:

    $ cd {your hadoop distribution directory}
    
    • your hadoop distribution directory 改成你解压的 Hadoop 路径,要点参考 3. CONFIGURATION 配置。

    格式化文件系统:

    $ bin/hdfs namenode -format
    

    启动 NameNode 和 DataNode:

    $ sbin/start-dfs.sh
    

    现在你应该可以在浏览器中打开下面的链接看到亲切的 Overview 界面了:

    NameNode - http://localhost:9870

    让 HDFS 可以被用来执行 MapReduce jobs:

    $ bin/hdfs dfs -mkdir /user
    $ bin/hdfs dfs -mkdir /user/<username>
    
    • <username> 改成你的用户名,记得去掉 <>

    启动 ResourceManager 和 NodeManager:

    $ sbin/start-yarn.sh
    

    现在你应该可以在浏览器中打开下面的链接看到亲切的 All Applications 界面了:

    ResourceManager - http://localhost:8088

    拷点文件,跑个栗子:

    $ bin/hdfs dfs -mkdir input
    $ bin/hdfs dfs -put etc/hadoop/*.xml input
    
    $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0-alpha2.jar grep input output 'dfs[a-z.]+'
    

    你应该能看到诸如下面的反馈结果:

    2017-03-04 21:52:37,041 INFO mapreduce.Job:  map 0% reduce 0%
    2017-03-04 21:52:42,097 INFO mapreduce.Job:  map 100% reduce 0%
    2017-03-04 21:52:48,158 INFO mapreduce.Job:  map 100% reduce 100%
    2017-03-04 21:52:48,170 INFO mapreduce.Job: Job job_1488635356409_0002 completed successfully
    

    检查一下输出:

    $ bin/hdfs dfs -get output output
    $ cat output/*
    

    或者

    $ bin/hdfs dfs -cat output/*
    

    看到如下结果:

    1   dfsadmin
    1   dfs.replication
    

    玩累了就输入以下代码停止:

    $ sbin/stop-dfs.sh
    
    $ sbin/stop-yarn.sh
    

    You are all done 全剧终

    作为新手,小狼也折腾了半天,发现网上很多代码贴了都不能直接用,期间也走过不少弯路。主要因为那些代码里面包含了一些原作者的安装信息,比如用户名和路径,以及一些不必要的额外设置。

    会者不难,难者不会,可能一些简单的代码修改对于不会编程的人来说都不简单。小狼力求在本文中列出绝大部分新手安装 Hadoop 时会遇到的困惑,希望大家互相学习,共同进步。另外,建议大家在百度前首先参考官方文档,会节省大量时间。

    相关文章

      网友评论

        本文标题:Mac OS X EI Captain 安装 Hadoop 3.

        本文链接:https://www.haomeiwen.com/subject/tjujgttx.html