Docker搭建Hadoop集群

作者: 凌得涂 | 来源:发表于2018-05-15 19:24 被阅读2222次

docker环境下搭建hadoop集群
Hive 安装
实战：基于 docker 的 HA-hadoop 集群搭建
Docker搭建Spark和Hive集群
大数据Hadoop集群搭建-04安装配置HDFS
使用Docker搭建Hadoop集群
docker不用已有hadoop-cluster镜像搭建 ha
hadoop学习大纲
Hadoop课程大纲
Hadoop课程大纲

在学习Hadoop过程中，想要搭建Hadoop分布式集群，往往需要几台服务器或者再一台机器上搭建几台虚拟机；这两种方式搭建Hadoop集群都不是很方便，个人很少自己拥有几台服务器，或者电脑内存够大可以同时跑多个虚拟机。

Docker 是一个开源的应用容器引擎，让开发者可以打包他们的应用以及依赖包到一个可移植的容器中，然后发布到任何流行的 Linux 机器上，也可以实现虚拟化。容器是完全使用沙箱机制，相互之间不会有任何接口。

自从了解了Docker之后，感觉这哥们就是搭建环境的神器，从此告别虚拟机，一些基础的服务如Redis、Mongo、MQ都可以通过容器来搞定。当然虚拟机也有虚拟机的优势。本文主要是对docker的简单应用，复杂虚拟化的东西不在本次讨论范围。
Docker容器技术可以很方便的构建Hadoop镜像，再根据Hadoop镜像同时创建多个Hadoop容器，从而非常容易的搭建Hadoop完全分布式集群环境。

一、创建部署Hadoop的基础环境

首先基于centos6.6的镜像创建一个基础linux服务环境，命令如下：

docker run -it --name hadoop-basenv -v /Users/lingy/Downloads/demo/docker/data:/home/lingy/data centos:6.6 /bin/bash

--name 会为容器指定名字，-v 会将本地文件夹挂载到容器的执行文件夹中，本文是/home/lingy/data

在创建好的容器中安装Hadoop相关基础环境，安装JDK、配置SSH免密登陆；由于容器是非常纯净的centos6.6所以很多软件都没有安装，需要安装一下。

安装Vim

执行 yum search vim 搜索vim相关软件，并安装vim-enhanced

yum install vim-enhanced

安装vim

安装SSH

免密登陆时需要用到ssh服务
同理搜索ssh yum search ssh 并安装openssh-server和openssh-clients

yum install openssh-server -y
yum install openssh-clients -y

安装SSH

安装Service

后边会通过service的方式启动ssh服务

yum install initscripts

安装JDK

从jdk官网现在rpm安装包jdk-8u161-linux-x64.rpm 放到本地文件夹/Users/lingy/Downloads/demo/docker/data下，由于创建容器时将此文件夹挂载到容器的/home/lingy/data下，所以在/home/lingy/data文件夹下可以找到jdk安装包，通过这种方式可以在宿主机和容器之间共享数据；为了避免不必要的麻烦，这里将安装包复制到另一个本地文件夹内，执行命令安装jdk。

rpm -ivh jdk-8u161-linux-x64.rpm
find / -name "rt.jar"

由于是默认安装所以执行find / -name "rt.jar"查找一下jdk的安装目录/usr/java/jdk1.8.0_161，方便之后配置环境变量使用

安装JDK

以上已经在linux的基础上完成了相关基础软件的安装，接下来将要配置环境、安装Hadoop，下面做基础配置

配置ssh免密登陆

Hadoop集群环境中，master启动的时候需要访问控制其他节点，不使用ssh免密登陆会很麻烦每次都需要登陆。所以通过ssh做免密登陆。
通过ssh-keygen生成公钥和私钥加密文件，再将公钥文件考入authorized_keys中

ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

启动ssh服务，并通过ssh免密登陆本机，查看/etc/hosts查看本机host

service sshd start
ssh ab3661a64168（本地host）

SSH免密登陆

配置JDK环境变量

打开/etc/profile文件配置环境变量

JAVA_HOME=/usr/java/jdk1.8.0_161/
JRE_HOME=/usr/java/jdk1.8.0_161/jre

CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$PATH:$JAVA_HOME/bin

export JAVA_HOME JRE_HOME CLASSPATH PATH

source /etc/profile 使环境变量立即生效，如下图：

配置JDK环境变量

二、安装Hadoop

到官网上下载Hadoop安装包，依然是放在本地目录共享文件夹下，本例中使用的是hadoop-2.7.3

安装并配置Hadoop

进入/usr/local文件夹创建一个hadoop文件夹，将下载好的hadoop-2.7.3.tar.gz解压，复制到hadoop文件加下

安装Hadoop

配置hadoop环境变量，编辑/etc/profile文件 vim /etc/profile 内容如下：

JAVA_HOME=/usr/java/jdk1.8.0_161/
JRE_HOME=/usr/java/jdk1.8.0_161/jre

HADOOP_HOME=/usr/local/hadoop/hadoop-2.7.3/
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

export JAVA_HOME JRE_HOME CLASSPATH HADOOP_HOME PATH

修改环境变量之后需要使环境变量生效，执行source /etc/profile，之后执行hadoop，环境变量配置成功效果如下图：

Hadoop环境变量

hadoop环境变量配置成功之后，需要进入到hadoop_home同级目录下为hadoop创建几个工作目录。

cd /usr/local/hadoop/
mkdir tmp
mkdir -p hdfs/name
mkdir hdfs/data

如果在不存在的hdfs文件夹下边创建name文件夹会失败；这里使用-p参数，在创建name文件的时候会连同上级目录hdfs一起创建

修改Hadoop相关配置文件

要想真正的运行hadoop应用还需要修改hadoop运行参数；进入/usr/local/hadoop/hadoop-2.7.3/etc/hadoop文件夹，需要修改的可执行文件与配置文件包括：hadoop-env.sh、yarn-env.sh、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml、slaves。

修改hadoop-env.sh

vim hadoop-env.sh注释掉原有的配置export JAVA_HOME=${JAVA_HOME}，修改成当前的JAVA_HOME export JAVA_HOME=/usr/java/jdk1.8.0_161/

hadoop-env.sh

修改yarn-env.sh

vim yarn-env.sh同样是重新指定JAVA_HOME export JAVA_HOME=/usr/java/jdk1.8.0_161/

yarn-env.sh

修改core-site.xml

<configuration>
        <property>
                <name> fs.default.name </name>
                <value>hdfs://master:9000</value>
        </property>
        <property>
                <name>fs.defaultFS</name>
                <value>hdfs://master:9000</value>
        </property>
        <property>
                <name>hadoop.tmp.dir</name>
                <value>/usr/local/hadoop/tmp</value>
        </property>
</configuration>

修改hdfs-site.xml

<configuration>
        <property>
                <name>dfs.namenode.name.dir</name>
                <value>file:/usr/local/hadoop/hdfs/name</value>
        </property>
        <property>
                <name>dfs.datanode.data.dir</name>
                <value>file:/usr/local/hadoop/hdfs/data</value>
        </property>
        <property>
                <name>dfs.replication</name>
                <value>2</value>
                <description>副本个数（每个本分割的文件会存储在几台datanode上，默认是3），这个数量应该小于datanode机器数</description>
        </property>
        <property>
                <name>dfs.permissions.enabled</name>
                <value>false</value>
        </property>
</configuration>

修改mapred-site.xml

在/usr/local/hadoop/hadoop-2.7.3/etc/hadoop目录下没有mapred-site.xml但是有一个文件mapred-site.xml.template；执行cp mapred-site.xml.template mapred-site.xml复制一个，修改内容如下：

<configuration>
        <property>
                <name>mapreduce.framework.name</name>
                <value>yarn</value>
                <description>mapreduce's framework is yarm</description>
        </property>
</configuration>

修改yarn-site.xml

<configuration>
<!-- Site specific YARN configuration properties -->
        <property>
                <name>yarn.resourcemanager.hostname</name>
                <value>master</value>
                <description>yarn resourcemanager hostname is master</description>
        </property>
        <property>
                <name>yarn.nodemanager.aux-services</name>
                <value>mapreduce_shuffle</value>
                <description>just mapreduce_shuffle can run MapReduce</description>
        </property>
</configuration>

修改slaves

增加datanode节点的hostname

node1
node2
node3

以上就是完整的安装hadoop及修改hadoop配置，接下来我们会根据制作好的容器创建一个本地镜像，再根据这个镜像构建Hadoop分布式集群

基于当前容器提交一个镜像版本，并构建构建Hadoop分布式集群

docker ps查看目前运行的容器，找到我们刚刚制作好的容器hadoop-basenv的IDab3661a64168。通过hadoop-basenv制作一个新的镜像

docker commit ab3661a64168 lingy/hadoop-distributed-base

通过docker images可以看到我们新制作的镜像

hadoop-basenv

通过新的镜像lingy/hadoop-distributed-base构建Hadoop分布式集群

创建master（namenode节点）

docker run -it --name hadoop-master \
-p 50010:50010 \
-p 50020:50020 \
-p 50070:50070 \
-p 50075:50075 \
-p 50090:50090 \
-p 8020:8020 \
-p 9000:9000 \
-p 10020:10020 \
-p 8030:8030 \
-p 19888:19888 \
-p 8031:8031 \
-p 8032:8032 \
-p 8033:8033 \
-p 8040:8040 \
-p 8042:8042 \
-p 8088:8088 \
-p 49707:49707 \
-p 2122:2122 \
-v /Users/lingy/Downloads/demo/docker/data:/home/lingy/data \
-h master lingy/hadoop-distributed-base /bin/bash

创建node1（datanode节点），node2、node3同理，注意容器的名字--name hadoop-node1和host的名字-h node1

docker run -it --name hadoop-node1 \
-p 50010 \
-p 50020 \
-p 50070 \
-p 50075 \
-p 50090 \
-p 8020 \
-p 9000 \
-p 10020 \
-p 8030 \
-p 19888 \
-p 8031 \
-p 8032 \
-p 8033 \
-p 8040 \
-p 8042 \
-p 8088 \
-p 49707 \
-p 2122 \
-v /Users/lingy/Downloads/demo/docker/data:/home/lingy/data \
-h node1 lingy/hadoop-distributed-base /bin/bash

到这里分布式的hadoop集群环境已经准备好了，但是要真正运行，还需要做一些细微的设置，如下：

在master的hosts文件里配置node1~3的地址信息，在node节点hosts上配置master的地址信息。因为启动hadoop是，会访问node节点
如果是重启了docker容器，需要执行 source /etc/profile 来使hadoop环境变量生效
检查ssh服务是否启动，如果没启动需要执行service ssd start启动ssh服务

完成以上操作后在master上执行start-all.sh启动hadoop（==注：==如果是第一次启动hadoop，需要先执行hadoop namenode -format）；停止hadoop执行stop-all.sh
启动成功之后分别在master和node节点上执行jps -l命令，如下图：

master

node

在地址栏上访问http://localhost:50070/

Overview

Datanodes

docker环境下搭建hadoop集群
博客推荐: docker环境下搭建hadoop集群使用docker搭建hadoop集群，大致分为如下几步：在...
Hive 安装
安装 Hadoop 集群参考 Docker Hadoop 集群搭建下载 Hive Hive下载地址本实例下载版...
实战：基于 docker 的 HA-hadoop 集群搭建
实战：基于 docker 的 HA-hadoop 集群搭建 Hadoop的master和slave分别运行在不同的...
Docker搭建Spark和Hive集群
参考资料使用 Docker 搭建 Hadoop + Hive + Spark 集群（上）[https://bamb...
大数据Hadoop集群搭建-04安装配置HDFS
Hadoop集群搭建-03编译安装hadoop Hadoop集群搭建-02安装配置Zookeeper Hadoop...
使用Docker搭建Hadoop集群
前言我是按照docker环境下搭建hadoop集群(ubuntu16.04 LTS系统）这篇博客来搭建的，然后遇...
docker不用已有hadoop-cluster镜像搭建 ha
使用docker 安装hadoop 集群首先，使用docker 安装Hadoop集群，需要下载好jdk、Hado...
hadoop学习大纲
Hadoop集群环境搭建 Hadoop集群环境搭建 HDFS 图说HDFS基本原理hadoop的shell命令操作...
Hadoop课程大纲
Hadoop集群环境搭建 Hadoop集群环境搭建 HDFS 图说HDFS基本原理hadoop的shell命令操作...
Hadoop课程大纲
Hadoop集群环境搭建 Hadoop集群环境搭建 HDFS 图说HDFS基本原理hadoop的shell命令操作...

Docker搭建Hadoop集群

一、创建部署Hadoop的基础环境

安装Vim

安装SSH

安装Service

安装JDK

配置ssh免密登陆

配置JDK环境变量

二、安装Hadoop

安装并配置Hadoop

修改Hadoop相关配置文件

修改hadoop-env.sh

修改yarn-env.sh

修改core-site.xml

修改hdfs-site.xml

修改mapred-site.xml

修改yarn-site.xml

修改slaves

基于当前容器提交一个镜像版本，并构建构建Hadoop分布式集群

通过新的镜像lingy/hadoop-distributed-base构建Hadoop分布式集群

相关文章

docker环境下搭建hadoop集群

Hive 安装

实战：基于 docker 的 HA-hadoop 集群搭建

Docker搭建Spark和Hive集群

大数据Hadoop集群搭建-04安装配置HDFS

使用Docker搭建Hadoop集群

docker不用已有hadoop-cluster镜像搭建 ha

hadoop学习大纲

Hadoop课程大纲

Hadoop课程大纲

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

程序员

我爱编程