Hadoop运行环境搭建

作者: fanbuer | 来源:发表于2019-10-25 17:38 被阅读0次

Spark单机环境搭建并运行单次统计
大数据技术之Hadoop入门（第三篇）伪分布式和完全分布式的搭建
hadoop框架学习笔记三 2020-04-01
Hadoop运行环境搭建
Hadoop运行环境搭建
Hadoop运行环境搭建
Hadoop运行环境搭建
hadoop学习---运行第一个hadoop实例
hadoop运行wordcount时的两个bug：Invalid
Hadoop之集群运行WordCount

安装hadoop2.7.2

解压(/opt/software -> /opt/module)
- tar -zxvf /hadoop-2.7.2.tar.gz -C /opt/module

环境变量

sudo vim /etc/profile

export HADOOP_HOME=/opt/module/hadoop-2.7.2
export PATH=$PATH:$HADOOP_HOME/bin
export PATH=$PATH:$HADOOP_HOME/sbin

配置立即生效
- source /etc/profile
查看hadoop版本
- hadoop version

完全分布式运行模式

集群部署规划

image.png
画横线的最好不要配置在同一台服务器上

配置集群(etc/hadoop/)

配置core-site.xml(核心配置文件)

vi core-site.xml

<configuration>
<!-- 指定HDFS中NameNode的地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://fan102:9000</value>
</property>
<!-- 指定Hadoop运行时产生文件的存储目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/opt/module/hadoop-2.7.2/data/tmp</value>
</property>
</configuration>

配置hadoop-env.sh(HDFS配置文件)
- vi hadoop-env.sh
```
export JAVA_HOME=/opt/module/jdk1.8.0_144
```

配置hdfs-site.xml(HDFS配置文件)

vi hdfs-site.xml

<configuration>
<!-- 指定HDFS副本的数量 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
<!-- 指定Hadoop辅助名称节点主机配置 -->
<property>
<name>dfs.namenode.secondary.http-address</name>
<value>fan104:50090</value>
</property>
<!-- 开启浏览器访问HDFS -->
<property>
<name>dfs.webhdfs.enabled</name>
<value>true</value>
</property>
</configuration>

配置yarn-env.sh(YARN配置文件)
- vi yarn-env.sh
```
export JAVA_HOME=/opt/module/jdk1.8.0_144
```

配置yarn-site.xml(YARN配置文件)

vi yarn-site.xml

<configuration>
<!-- Reducer获取数据的方式 -->
<property>
<name>yarn.nodemanager.aux-services</name>
<value>mapreduce_shuffle</value>
</property>
<!-- 指定YARN的ResourceManager的地址 -->
<property>
<name>yarn.resourcemanager.hostname</name>
<value>fan103</value>
</property>
<!-- 历史服务器端地址 -->
<!-- 历史服务器web端地址 -->
<!-- 日志聚集功能使能 -->
<!-- 日志保留时间设置7天 -->
</configuration>

配置mapred-env.sh(MapReduce配置文件)
- vi mapred-env.sh
```
export JAVA_HOME=/opt/module/jdk1.8.0_144
```

配置mapred-site.xml(MapReduce配置文件)

cp mapred-site.xml.template mapred-site.xml

vi mapred-site.xml

<configuration>
<!-- 指定MR运行在Yarn上 -->
<property>
<name>mapreduce.framework.name</name>
<value>yarn</value>
</property>
</configuration>

配置slaves(服务器注册表)
- vi slaves
```
fan102
fan103
fan104
```

补充：配置HDFS存储多目录

df -h
查看磁盘使用情况

vi hdfs-site.xml

<property><name>dfs.datanode.data.dir</name><value>file:///${hadoop.tmp.dir}/dfs/data1,file:///hd2/dfs/data2,file:///hd3/dfs/data3,file:///hd4/dfs/data4</value>
</property>

启动<u style="line-height: 22.399999618530273px; box-sizing: content-box;">分发脚本</u>(pwd /opt/module/)
- xsync hadoop-2.7.2/
同步配置文件（/etc/profile）
- scp /etc/profile root@fan103:/etc/profile

启动集群

如果集群是第一次启动，需要格式化NameNode（注意格式化之前，一定要先停止上次启动的所有namenode和datanode进程，然后再删除data和log数据）
- bin/hdfs namenode -format
启动HDFS
- sbin/start-dfs.sh
启动YARN
- sbin/start-yarn.sh
  注意：NameNode和ResourceManger如果不是同一台机器，不能在NameNode上启动 YARN，应该在ResouceManager所在的机器上启动YARN。
查看
1. Web端查看
  - http://fan102:50070/
2. Web端查看SecondaryNameNode
  - 浏览器中输入：http://fan104:50090/status.html
3. 查看各个节点状态
  - jps
4. 当启动发生错误的时候
  1. 查看日志：/home/fan/module/hadoop-2.7.2/logs
  2. 如果进入安全模式，可以通过hdfs dfsadmin -safemode leave
  3. 停止所有进程，删除data和log文件夹，然后hdfs namenode -format 来格式化