hadoop(2)搭建运行

作者: Tomy_Jx_Li | 来源:发表于2018-09-25 21:53 被阅读2次

hadoop(2)搭建运行
Spark单机环境搭建并运行单次统计
大数据技术之Hadoop入门（第三篇）伪分布式和完全分布式的搭建
Hadoop实战（3）_虚拟机搭建CDH的全分布模式
Hadoop实战（7）_Apache Hadoop安装和配置Hu
Hadoop实战（6）_搭建Apache Hadoop的Ecli
Hadoop实战（4）_Hadoop的集群管理和资源分配
Hadoop实战（5）_Hadoop的运维经验
实战：基于 docker 的 HA-hadoop 集群搭建
hadoop学习---运行第一个hadoop实例

1 下载hadoop

下载hadoop的时候直接去apache官网进行下载，这个地址下可以下载apache的所有项目。我这里使用的是最新的稳定版2.9.1。然后解压。

2 配置

根据hadoop官网介绍进行配置

2.1 hadoop的jdk配置

需要修改hadoop配置文件hadoop-env.sh。执行命令vim hadoop-env.sh之后进入编辑页面。主要是修改将配置文件中的JAVA_HOME修改为自己的jdk安装目录。

export JAVA_HOME=/usr/java/jdk1.7.0_80

配置完之后可以执行下bin/hadoop命令，查看时候会出现命令提示如下图

bin/hadoop命令执行结果

2.2 单机模式

该模式下只需要配置了jdk就可以了，不需要进行其他操作。如需要进行测试可以参考hadoop官网介绍进行测试

2.3 伪分布式配置

这里需要修改两个配置文件

2.3.1 etc/hadoop/core-site.xml

这里的etc不是根目录下的etc，是hadoop下的配置文件路径etc，请不要搞混。
该配置文件是hadoop的核心配置文件，修改后如图：

hadoop核心配置文件
配置内容为

<!-- 制定HDFS的NameNode的地址 -->
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://itcast01:9000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储目录 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/itcast/hadoop-2.9.1/tmp</value>
</property>

2.3.2 etc/hadoop/hdfs-site.xml

这个配置文件是hdfs的配置文件，修改后如图：

hdfs配置文件

配置内容为：

<!-- 指定HDFS副本的数量 -->
<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>

到这里hadoop的伪分布已经配置完毕，但是呢hadoop的yarn还没有进行配置，没有了yarn感觉hadoop失色很多。

2.4 yarn的单机配置

2.4.1 etc/hadoop/mapred-site.xml

mapreduce的配置文件，该文件是不存在的，需要将模板文件重命名，执行命令mv mapred-site.xml.template mapred-site.xml，修改后如图：

mapreduce配置文件

配置内容：

<!-- 指定mapreduce运行在yarn上 -->
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>

2.4.2 etc/hadoop/yarn-site.xml

yarn配置文件，这里只是单节点的配置。修改后如图

yarn配置文件

配置内容：

<!-- 指定YARN的ResourceManager的地址 -->
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>itcast01</value>
</property>
<!-- reducer获取数据的方式 -->
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

3 启动

3.1 将hadoop命令加入环境变量

为了执行命令方便，将hadoop命令加入环境变量

export HADOOP_HOME=/itcast/hadoop-2.4.1
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

执行source /etc/profile 是配置起作用

3.2 格式化namenode

第一次运行的时候需要进行格式化，这个格式化就是将一般的磁盘，格式化成hdfs可运行的磁盘，会清空已有数据，所以只能初次使用的时候执行。执行命令hdfs namenode -format

3.3 启动hadoop

3.3.1 启动hdfs

执行命令start-dfs.sh ，会启动三个应用namenode，datanode，secondaryNamenode。namenode主要是管理datanode并监控客户端对当前hdfs的链接。datanode是实际存储数据的服务节点。secondaryNamenode主要协助namenode工作的，他并不是备用节点。
启动过程如图：

hdfs启动过程
图中可以看出共启动三个应用，但是每次都需要进行密码的输入。这里因为是单机所以无所谓，但是如果是成百上千台的服务器集群进行启动，那么可想而知这是个非常可怕的事情。
所以这里需要进行免密登录。参考ssh免密设置。如果需要深入了解请自行收集资料。

3.3.2 启动yarn

执行命令start-yarn.sh，这里会启动两个应用，resourceManager和NodeManager。通过resourceManger可以获取到yarn集群的信息，如状态、指标、调度信息、节点信息等。nodeManager可以获取到节点的信息和节点上运行的应用程序的信息，如storm、spark等。
这里已经设置了免密登录，不需要再输入两次密码了，运行如图：

免密启动yarn

3.4 验证启动成功

3.4.1 根据jps查看进程

需要用到java 的jps命令查看结果：

查看hadoop进程

可以看出，hdfs和yarn都已经成功启动了。

3.4.2 访问管理页面

http://192.168.121.136:50070 （HDFS管理界面）效果如图：

HDFS管理界面

http://192.168.121.136:8088 （MR管理界面）效果如图：

MR管理界面
*需要注意的是，如果没有开启端口50070和8088的需要使用命令

firewall-cmd --zone=public --add-port=50070/tcp --permanent 
firewall-cmd --zone=public --add-port=8088/tcp --permanent 
firewall-cmd --reload

进行端口的解封*，我这里因为是自己本机进行测试，同时由于这两个页面中还有其他的点击页面出现其他端口。所以采用了直接关闭防火墙的策略(不推荐)。命令如下：

systemctl stop firewalld

网友评论

本文标题：hadoop(2)搭建运行

本文链接：https://www.haomeiwen.com/subject/kymloftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

hadoop(2)搭建运行

1 下载hadoop

2 配置

2.1 hadoop的jdk配置

2.2 单机模式

2.3 伪分布式配置

2.3.1 etc/hadoop/core-site.xml

2.3.2 etc/hadoop/hdfs-site.xml

2.4 yarn的单机配置

2.4.1 etc/hadoop/mapred-site.xml

2.4.2 etc/hadoop/yarn-site.xml

3 启动

3.1 将hadoop命令加入环境变量

3.2 格式化namenode

3.3 启动hadoop

3.3.1 启动hdfs

3.3.2 启动yarn

3.4 验证启动成功

3.4.1 根据jps查看进程

3.4.2 访问管理页面

相关文章

hadoop(2)搭建运行

Spark单机环境搭建并运行单次统计

大数据技术之Hadoop入门（第三篇）伪分布式和完全分布式的搭建

Hadoop实战（3）_虚拟机搭建CDH的全分布模式

Hadoop实战（7）_Apache Hadoop安装和配置Hu

Hadoop实战（6）_搭建Apache Hadoop的Ecli

Hadoop实战（4）_Hadoop的集群管理和资源分配

Hadoop实战（5）_Hadoop的运维经验

实战：基于 docker 的 HA-hadoop 集群搭建

hadoop学习---运行第一个hadoop实例

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读