Hadoop集群搭建笔记

作者: 董家二少 | 来源:发表于2019-04-30 18:59 被阅读0次

大数据Hadoop集群搭建-04安装配置HDFS
hadoop学习大纲
Hadoop课程大纲
Hadoop课程大纲
Hadoop 课程大纲
Hadoop、Hbase HA高可用集群搭建
Hadoop Hbase HA高可用集群搭建
HBase学习笔记二：全分布式搭建
docker环境下搭建hadoop集群
hadoop集群环境搭建之完全分布式集群环境搭建（二）

集群分类

Hadoop的集群分为HDFS集群和YARN集群，两者逻辑上分离，物理上常在一起

HDFS集群负责还海量数据的存储，集群中的角色主要有namenode,datanode,secondarynamenode
Yarn集群负责海量数据运算时的资源调度，集群的角色主要有resourcemanager,nodemanager
mapreduc其实是一个分布式运算编程框架，是应用程序开发包，由用户按照编程规范进行程序开发，后打包运行在HDPS集群上，并且受到Yarn集群的资源调度管理

集群部署

Hadoop的部署方式有三种：standalone(独立模式)，pseudo-distributed(伪分布模式)，cluster(集群模式)，其中前两者是单机模式

独立模式又称为单机模式，仅1个机器运行一个Java进程，主要用于调试
伪分布模式也是在1个机器上运行HDFS的namdenode和datanode,yarn的resourcemanager,nodemanager.但分别启动单独的Java进程，主要用于调试
集群模式主要用于生产环境部署，会使用N台主机组成一个Hadoop集群，这种模式下，主节点和从节点部署分开部署在不同的服务器上

服务器准备

vm服务器，centos
采取nat联网的方式

服务器系统设置

同步时间
设置主机名
配置IP，主机名映射 vim /etc/hosts
配置ssh免密登录

免密码ssh设置
现在确认能否不输入口令就用ssh登录localhost:
$ ssh localhost

如果不输入口令就无法用ssh登陆localhost，执行下面的命令：
$ ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsa 
$ cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys

配置防火墙

JDK安装

卸载openjdk

rpm -qa | grep java
rpm -e --nodeps XXXXX

下载jdk，配置环境变量 /ect/profile

安装包的目录结构

etc存放配置文件
sbin存放启动和关闭集群等命令

配置文件的修改

一般在主节点上进行修改，完成之后scp下发到其他各个从节点

配置hadoop

hadoop-env.sh
设置jdk环境配置

vim hadoop-env.sh
export JAVA_HOME=/root/app/jdk1.8.0_65

core-site.xml
configuration变迁下添加property

指定hadoop所使用的文件系统schema(URI),HDFS主节点的namenode地址，设置fs.defaultFS
指定hadoop运行时产生的文件的存储目录hadoop.tmp.dir，默认为/tmp/hadoop-${user.name}

hdfs-site.xml

指定hdfs副本的数量dfs.replication，默认是3份
设置hadoop.namenode.secondary.http-address

mapred-site.xml
指定mr运行时框架，默认是指定yarn,配置项为mapredue.framework.name,值为yarn
yarn-site.xml

指定yarn主节点resourcemanager地址，配置项为yarn.resoucemanger.hostname,值为node-1
配置nodemanager上运行的附属服务，需要配置mapreduce_shuffle,才可以运行mr程序默认值。
配置项yarn.resourcemanager.aux-service,值为mapreduce_shuffle

slave文件
将hadoop添加到环境变量中

远程拷贝批量下发hadoop配置

scp -r /export/server/hadoop-2.7/ root@node-2:/export/server/
scp -r /etc/profile root@node-2:/etc/
source /etc/profile

其他

**-default.xml文件里设置了Hadoop默认的配置选项，如果用户没有更改，里面的选项将会生效
**-site.xml配置了用户需要自定义的配置选项，如果有配置，将会覆盖默认的配置

Hadoop集群启动

要启动Hadoop集群，需要启动HDFS集群和Yarn集群，首次启动时，必须进行格式化，并且格式化只能进行一次。

格式化的本质就是对文件系统的初始化操作，创建一些自己所需要的文件。
格式化之后集群启动成功，后续不能进行格式化，因为首次格式化之后，会为集群生成一个唯一标志clusterID，如果重新进行初始化，集群ID将会发生变化，导致集群内服务找不到集群clusterID
格式化必须在主角色namenode上进行

启动的方式包括两种单一服务启动和脚本一键启动（主节点机器上执行，前提是配置了slave文件和ssh免密登录）

启动完成之后，使用jps命令查看

网友评论

本文标题：Hadoop集群搭建笔记

本文链接：https://www.haomeiwen.com/subject/fefbnqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

Hadoop集群搭建笔记

集群分类

集群部署

服务器准备

服务器系统设置

JDK安装

安装包的目录结构

配置文件的修改

配置hadoop

远程拷贝批量下发hadoop配置

其他

Hadoop集群启动

相关文章

大数据Hadoop集群搭建-04安装配置HDFS

hadoop学习大纲

Hadoop课程大纲

Hadoop课程大纲

Hadoop 课程大纲

Hadoop、Hbase HA高可用集群搭建

Hadoop Hbase HA高可用集群搭建

HBase学习笔记二：全分布式搭建

docker环境下搭建hadoop集群

hadoop集群环境搭建之完全分布式集群环境搭建（二）

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读