2017年1月,Apache Hadoop 提供了 3.0.0-alpha2 版本,先前在安装 2.7.3 的时候折腾了半天,这次更新后小狼也顺便重新梳理了一下安装过程,给需要的同学做个参考。我知道我知道,就是想让 Hadoop 先跑起来是吧,来来来~
安装时参考了 Hadoop: Setting up a Single Node Cluster;
以及 Setting up Hadoop 2.7.1 on Mac OS X Yosemite & Hadoop Eclipse Setup;
以及 在Mac下安装Hadoop的坑。
此外,作为小白,我把自己在安装中遇到的一些问题做了备注。
1. PREREQUISITES 安装前的准备
a) Java
Hadoop 2.7 以及后续版本需要 Java 7 以上版本的支持, 参见 Hadoop Java Versions。打开 Terminal 输入以下代码查看 Java 的版本:
- Terminal 可用快捷键 command+space 中搜索 "terminal" 打开。
$ java -version
如果已经装了Java,你会看到类似酱紫结果:
java version "1.8.0_121"
Java(TM) SE Runtime Environment (build 1.8.0_121-b13)
Java HotSpot(TM) 64-Bit Server VM (build 25.121-b13, mixed mode)
如果没有,会要求你安装,你可以去这里下载 Java SE Downloads,或者用 Homebrew 安装。我是用 Homebrew 安装了最新版本 Java。
- 在上面的链接中有 Homebrew 的安装和使用方法,这里简单说一下,依次输入下面两行代码,第一个用来安装 Homebrew,第二个用来安装 Java。
$ /usr/bin/ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)"
$ brew install java
b) SSH
首先在系统里打开远程登录,位置在 System Preference -> Sharing
中,左边勾选 Remote Login
,右边选择 All Users
。
- 系统偏好可用快捷键 command+space 中搜索 "System Preference" 打开。
在 Terminal 里输入以下代码查看能不能免密 ssh 到 localhost:
$ ssh localhost
可以的话会返回类似如下结果:
Last login: Sat Mar 4 19:52:15 2017
如果不行输入:
$ ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
$ cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
$ chmod 0600 ~/.ssh/authorized_keys
2. DOWNLOAD HADOOP 下载 Hadoop
去 官方镜像 下载 hadoop-3.0.0-alpha2 的压缩包,然后解压到你爱的路径。
- 如果用 Homebrew 目前会自动安装 Hadoop 2.7.3 版本,且安装路径为
/usr/local/Cellar/Hadoop
,为下文叙述方便我们采用直接下载的方式。
3. CONFIGURATION 配置
还记得你解压的 Hadoop 包吗?找到它,进入 etc/hadoop/
下,我们需要对其中的文件做一些改动。我是用 Sublime Text 编辑的,强烈推荐。也可以在 Terminal 中用 nano 命令编辑,新手不推荐。
a) hadoop-env.sh
输入以下代码看看你把 Java 装到哪里了:
$ /usr/libexec/java_home
你会看到类似酱紫结果:
/Library/Java/JavaVirtualMachines/jdk1.8.0_121.jdk/Contents/Home
打开 hadoop-env.sh
文件(位置 etc/hadoop/
),找到 # export JAVA_HOME=
,改参数如下:
export JAVA_HOME={your java home directory}
- 把
{your java home directory}
改成你上面查到的 Java 路径,记得去掉注释#
。比如export JAVA_HOME=/Library/Java/JavaVirtualMachines/jdk1.8.0_121.jdk/Contents/Home
。
然后进到 Hadoop 解压包所在的路径:
$ cd {your hadoop distribution directory}
- 把
{your hadoop distribution directory}
改成你解压的 Hadoop 路径,比如cd /Users/Tracy/Desktop/HADOOP/hadoop-3.0.0-alpha2
。 - 一个简单的方式知道你的 Hadoop 路径:查看
hadoop-3.0.0-alpha2
文件夹里的任意文件或子文件夹的信息。比如,右键单击etc
文件夹,选择Get Info
,直接复制路径Where
的内容即可,Terminal 会自动转化为正确的形式。
接着输入以下代码:
$ bin/hadoop
你应该会看到一段关于 Hadoop 的各种信息。
接下来你就可以建立以下三种模式的 Hadoop 集群了:
- Standalone mode 独立式
- Pseudo-distributed mode 伪分布式
- fully-distributed mode 全分布式
我们建立第二种,让 Hadoop 做为后台应用运行在本地机器,模拟小集群。
b) core-site.xml
打开 core-site.xml
文件(位置 etc/hadoop/
),改参数如下:
<configuration>
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost:9000</value>
</property>
</configuration>
c) hdfs-site.xml
打开 hdfs-site.xml
文件(位置 etc/hadoop/
),改参数如下:
<configuration>
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
</configuration>
d) mapred-site.xml
打开 mapred-site.xml
文件(位置 etc/hadoop/
),改参数如下:
<configuration>
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>
- 如果文件后缀是
.xml.example
,改为.xml
。
e) yarn-site.xml
打开 yarn-site.xml
文件(位置 etc/hadoop/
),改参数如下:
<configuration>
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<property>
<name>yarn.nodemanager.env-whitelist</name>
<value>JAVA_HOME,HADOOP_COMMON_HOME,HADOOP_HDFS_HOME,HADOOP_CONF_DIR,CLASSPATH_PREPEND_DISTCACHE,HADOOP_YARN_HOME,HADOOP_MAPRED_HOME</value>
</property>
</configuration>
4. EXECUTION 走你
接下来就是格式化后启动 HDFS 和 YARN,先输入以下代码定位到你的 Hadoop 路径:
$ cd {your hadoop distribution directory}
- 把
your hadoop distribution directory
改成你解压的 Hadoop 路径,要点参考 3. CONFIGURATION 配置。
格式化文件系统:
$ bin/hdfs namenode -format
启动 NameNode 和 DataNode:
$ sbin/start-dfs.sh
现在你应该可以在浏览器中打开下面的链接看到亲切的 Overview 界面了:
NameNode - http://localhost:9870
让 HDFS 可以被用来执行 MapReduce jobs:
$ bin/hdfs dfs -mkdir /user
$ bin/hdfs dfs -mkdir /user/<username>
- 把
<username>
改成你的用户名,记得去掉<>
。
启动 ResourceManager 和 NodeManager:
$ sbin/start-yarn.sh
现在你应该可以在浏览器中打开下面的链接看到亲切的 All Applications 界面了:
ResourceManager - http://localhost:8088
拷点文件,跑个栗子:
$ bin/hdfs dfs -mkdir input
$ bin/hdfs dfs -put etc/hadoop/*.xml input
$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.0.0-alpha2.jar grep input output 'dfs[a-z.]+'
你应该能看到诸如下面的反馈结果:
2017-03-04 21:52:37,041 INFO mapreduce.Job: map 0% reduce 0%
2017-03-04 21:52:42,097 INFO mapreduce.Job: map 100% reduce 0%
2017-03-04 21:52:48,158 INFO mapreduce.Job: map 100% reduce 100%
2017-03-04 21:52:48,170 INFO mapreduce.Job: Job job_1488635356409_0002 completed successfully
检查一下输出:
$ bin/hdfs dfs -get output output
$ cat output/*
或者
$ bin/hdfs dfs -cat output/*
看到如下结果:
1 dfsadmin
1 dfs.replication
玩累了就输入以下代码停止:
$ sbin/stop-dfs.sh
$ sbin/stop-yarn.sh
You are all done 全剧终
作为新手,小狼也折腾了半天,发现网上很多代码贴了都不能直接用,期间也走过不少弯路。主要因为那些代码里面包含了一些原作者的安装信息,比如用户名和路径,以及一些不必要的额外设置。
会者不难,难者不会,可能一些简单的代码修改对于不会编程的人来说都不简单。小狼力求在本文中列出绝大部分新手安装 Hadoop 时会遇到的困惑,希望大家互相学习,共同进步。另外,建议大家在百度前首先参考官方文档,会节省大量时间。
网友评论