美文网首页
hadoop(2)搭建运行

hadoop(2)搭建运行

作者: Tomy_Jx_Li | 来源:发表于2018-09-25 21:53 被阅读2次

1 下载hadoop

下载hadoop的时候直接去apache官网进行下载,这个地址下可以下载apache的所有项目。我这里使用的是最新的稳定版2.9.1。然后解压。

2 配置

根据hadoop官网介绍进行配置

2.1 hadoop的jdk配置

需要修改hadoop配置文件hadoop-env.sh。执行命令vim hadoop-env.sh之后进入编辑页面。主要是修改将配置文件中的JAVA_HOME修改为自己的jdk安装目录。

export JAVA_HOME=/usr/java/jdk1.7.0_80

配置完之后可以执行下bin/hadoop命令,查看时候会出现命令提示如下图


bin/hadoop命令执行结果

2.2 单机模式

该模式下只需要配置了jdk就可以了,不需要进行其他操作。如需要进行测试可以参考hadoop官网介绍进行测试

2.3 伪分布式配置

这里需要修改两个配置文件

2.3.1 etc/hadoop/core-site.xml

这里的etc不是根目录下的etc,是hadoop下的配置文件路径etc,请不要搞混。
该配置文件是hadoop的核心配置文件,修改后如图:

hadoop核心配置文件
配置内容为
<!-- 制定HDFS的NameNode的地址 -->
<property>
    <name>fs.defaultFS</name>
    <value>hdfs://itcast01:9000</value>
</property>
<!-- 指定hadoop运行时产生文件的存储目录 -->
<property>
    <name>hadoop.tmp.dir</name>
    <value>/itcast/hadoop-2.9.1/tmp</value>
</property>

2.3.2 etc/hadoop/hdfs-site.xml

这个配置文件是hdfs的配置文件,修改后如图:


hdfs配置文件

配置内容为:

<!-- 指定HDFS副本的数量 -->
<property>
    <name>dfs.replication</name>
    <value>1</value>
</property>

到这里hadoop的伪分布已经配置完毕,但是呢hadoop的yarn还没有进行配置,没有了yarn感觉hadoop失色很多。

2.4 yarn的单机配置

2.4.1 etc/hadoop/mapred-site.xml

mapreduce的配置文件,该文件是不存在的,需要将模板文件重命名,执行命令mv mapred-site.xml.template mapred-site.xml,修改后如图:


mapreduce配置文件

配置内容:

<!-- 指定mapreduce运行在yarn上 -->
<property>
    <name>mapreduce.framework.name</name>
    <value>yarn</value>
</property>

2.4.2 etc/hadoop/yarn-site.xml

yarn配置文件,这里只是单节点的配置。修改后如图


yarn配置文件

配置内容:

<!-- 指定YARN的ResourceManager的地址 -->
<property>
    <name>yarn.resourcemanager.hostname</name>
    <value>itcast01</value>
</property>
<!-- reducer获取数据的方式 -->
<property>
    <name>yarn.nodemanager.aux-services</name>
    <value>mapreduce_shuffle</value>
</property>

3 启动

3.1 将hadoop命令加入环境变量

为了执行命令方便,将hadoop命令加入环境变量

export HADOOP_HOME=/itcast/hadoop-2.4.1
export PATH=$PATH:$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

执行source /etc/profile 是配置起作用

3.2 格式化namenode

第一次运行的时候需要进行格式化,这个格式化就是将一般的磁盘,格式化成hdfs可运行的磁盘,会清空已有数据,所以只能初次使用的时候执行。执行命令hdfs namenode -format

3.3 启动hadoop

3.3.1 启动hdfs

执行命令start-dfs.sh ,会启动三个应用namenode,datanode,secondaryNamenode。namenode主要是管理datanode并监控客户端对当前hdfs的链接。datanode是实际存储数据的服务节点。secondaryNamenode主要协助namenode工作的,他并不是备用节点。
启动过程如图:

hdfs启动过程
图中可以看出共启动三个应用,但是每次都需要进行密码的输入。这里因为是单机所以无所谓,但是如果是成百上千台的服务器集群进行启动,那么可想而知这是个非常可怕的事情。
所以这里需要进行免密登录。参考ssh免密设置。如果需要深入了解请自行收集资料。

3.3.2 启动yarn

执行命令start-yarn.sh,这里会启动两个应用,resourceManager和NodeManager。通过resourceManger可以获取到yarn集群的信息,如状态、指标、调度信息、节点信息等。nodeManager可以获取到节点的信息和节点上运行的应用程序的信息,如storm、spark等。
这里已经设置了免密登录,不需要再输入两次密码了,运行如图:


免密启动yarn

3.4 验证启动成功

3.4.1 根据jps查看进程

需要用到java 的jps命令查看结果:


查看hadoop进程

可以看出,hdfs和yarn都已经成功启动了。

3.4.2 访问管理页面

http://192.168.121.136:50070 (HDFS管理界面)效果如图:


HDFS管理界面

http://192.168.121.136:8088 (MR管理界面)效果如图:


MR管理界面
*需要注意的是,如果没有开启端口50070和8088的需要使用命令
firewall-cmd --zone=public --add-port=50070/tcp --permanent 
firewall-cmd --zone=public --add-port=8088/tcp --permanent 
firewall-cmd --reload

进行端口的解封*,我这里因为是自己本机进行测试,同时由于这两个页面中还有其他的点击页面出现其他端口。所以采用了直接关闭防火墙的策略(不推荐)。命令如下:

systemctl stop firewalld 

相关文章

网友评论

      本文标题:hadoop(2)搭建运行

      本文链接:https://www.haomeiwen.com/subject/kymloftx.html