大数据集群模式搭建

作者: 生命有一种执着 | 来源:发表于2020-03-11 17:49 被阅读0次

RabbitMQ 集群高可用部署详细介绍
大数据集群搭建2
大数据集群搭建
【4/30】数据库服务器集群及相关
zookeeper简介(整理)
Zookeeper【五】 -zookeeper集群搭建
Hadoop+zookeeper+Flume+Spark+Kaf
2020-02-08_Myclustereurekainacti
大数据集群模式搭建
Rabbitmq集群之镜像队列

我们先来了解下大数据hadoop的优势：

1、高可靠性：因为Hadoop假设计算元素和存储会出现故障，因为它维护多个工作数据副本，在出现故障时可以对失败的节点重新分布处理。

2、搞扩展性：在集群间分配任务数据，可方便的扩展数以千计的节点。

3、高效性：在MapReduce的思想下，Hadoop是并行工作的，以加快任务处理速度。

4、高容错性：自动保存多份副本数据，并且能够自动将失败的任务重新分配。

hadoop的组成

Hadoop HDFS：

一个高可靠、高吞吐量的分布式文件系统。

Hadoop MapReduce：

一个分布式的离线并行计算框架。

Hadoop YARN：

作业调度与集群资源管理的框架。

Hadoop Common：

支持其他模块的工具模块（Configuration、RPC、序列化机制、日志操作）。

ok，了解后我们来搭建hadoop集群模式

1、首先，我们应该要有一个集群规划部署，下面是我本地的集群规划部署：

集群规划部署

看表中，bigdata111,bigdata112,bigdata113是需要我们在虚拟机上搭建的三台机器（注意，要完全配置好IP，JDK以及HADOOP的环境，上一篇文章已经做好），这里可以先搭建一台完整的机器，剩下两台进行克隆就好，但是后面需要更改IP。

bigdata111机器中放Namenode主节点，节点bigdata112是yarn的主节点；

2、接下来进行文件的配置

配置文件在/opt/module/hadoop-2.8.4/etc/hadoop中；

下面是我整理好的配置文件：

（1）配置core-site.xml文件：这里仅配置namenode主节点的机器，我放的是bigdata111

<name>fs.defaultFS</name>

<value>hdfs://bigdata111:9000</value>

</property>

<name>hadoop.tmp.dir</name>

/opt/module/hadoop-2.8.4/data/tmp

</property>

（2）配置yarn-site.xml文件；

<name>yarn.nodemanager.aux-services</name>

<value>mapreduce_shuffle</value>

</property>

<name>yarn.resourcemanager.hostname</name>

<value>bigdata112</value>

</property>

<name>yarn.log-aggregation-enable</name>

</property>

<name>yarn.log-aggregation.retain-seconds</name>

</property>

（3）配置hdfs-site.xml文件；

<name>dfs.replication</name>

</property>

<name>dfs.namenode.secondary.http-address</name>

<value>bigdata111:50090</value>

</property>

<name>dfs.permissions</name>

<value>false</value>

</property>

（4）配置mapred-site.xml文件；

<name>mapreduce.framework.name</name>

</property>

<name>mapreduce.jobhistory.address</name>

<value>bigdata112:10020</value>

</property>

<name>mapreduce.jobhistory.webapp.address</name>

<value>bigdata112:19888</value>

</property>

最后，配置slaves文件，将三个机器的名称写入文件内，在进行配置hadoop-env.sh文件，写入jdk路径，export JAVA_HOME=/opt/module/jdk1.8.0_144（注：是自己安装的路径）

3、将上面四个文件位置完成后，需要将hadoop进行格式化

为什么要格式化？

NameNode主要被用来管理整个分布式文件系统的命名空间(实际上就是目录和文件)的元数据信息，同时为了保证数据的可靠性，还加入了操作日志，所以，NameNode会持久化这些数据(保存到本地的文件系统中)。对于第一次使用HDFS，在启动NameNode时，需要先执行-format命令，然后才能正常启动NameNode节点的服务。

格式化命令：hadoop namenode -format

4、启动hdfs、yarn

在bigdata111上启动hdfs，start-dfs.sh，启动之后使用jps命令查看进程；