美文网首页
2)Hadoop运行环境配置

2)Hadoop运行环境配置

作者: bullion | 来源:发表于2018-10-19 15:43 被阅读0次

官方手册 2.7.2版本


Linux环境准备

1)关闭防火墙,配置静态ip,主机名称

2)安装 JDK 配置环境变量

3)安装Hadoop 配置环境变量

4)配置 SSH


运行环境

1)本地模式

运行本地grep官方案例:

$ mkdir input

$ cp etc/hadoop/*.xml input

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'

$ cat output/*

运行本地WordCount官方案例:

$ mkdir wcinput

$ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput/ wcoutput

$ cat wcoutput/*


2)伪分布模式

(伪分布模式)启动HDFS并运行MapReduce程序

(伪分布模式)启动YARN并运行MapReduce程序

3)完全分布式模式

    3.1)部署规划

    3.2)参考

        (伪分布模式)启动HDFS并运行MapReduce程序

        (伪分布模式)启动YARN并运行MapReduce程序

    3.3)修改配置文件

        3.3.1)HDFS配置文件

            指定Hadoop辅助名称节点可修改 etc/hadoop/hdfs-site.xml:

<configuration>

    <!-- 指定HDFS副本的数量 -->

    <property>

        <name>dfs.replication</name>

        <value>3</value>

    </property>

    <!-- 指定Hadoop辅助名称节点主机配置 -->

    <property>

        <name>dfs.namenode.secondary.http-address</name>

        <value>hadoop104:50090</value> <!-- hadoop104为主机名称 -->

    </property>

</configuration>

        3.3.2)YARN配置文件

            指定YARN的ResourceManager地址可修改etc/hadoop/yarn-site.xml:

<configuration>

    <!-- 指定Reducer获取数据的方式 -->

    <property>

        <name>yarn.nodemanager.aux-services</name>

        <value>mapreduce_shuffle</value>

    </property>

    <!-- 指定YARN的ResourceManager的地址 -->

    <property>

        <name>yarn.resourcemanager.hostname</name>

        <value>hadoop103</value> <!-- hadoop103为主机名称 -->

    </property>

</configuration>

        3.3.3)MapReduce配置文件

            制定MR运行在YARN上可修改etc/hadoop/mapred-site.xml 增加如下配置:

<!-- 制定MR运行在YARN上 -->

<property>

    <name>mapreduce.framework.name</name>

    <value>yarn</value>

</property>

    3.4)使用集群分发脚本分配置好的Hadoop配置文件

$ xsync /opt/module/hadoop-2.7.2/

        3.4.1)查看文件分发情况

$ cat /opt/module/hadoop2.7.2/etc/hadoop/core-site.xml

    3.5)集群单节点启动

        3.5.1)格式化

$ bin/hdfs namenode -format

        3.5.2)启动

无SSH需要每台服务器一个一个节点启动

$ sbin/hadoop-daemon.sh start namenode

$ sbin/hadoop-daemon.sh start datanode

SSH无密登录配置,配置完成后还需要进行3.6)群起集群的操作

    3.6)群起集群

        3.6.1)配置slaves

/opt/module/hadoop-2.7.2/etc/hadoop/slaves

$ vim slaves

        3.6.2)增加如下内容,存放DataNode的节点的主机名称,注意不允许有空格和空行

hadoop102

hadoop103

hadoop104

        3.6.3)分发slaves

$ xsync slaves

        3.6.4)启动HDFS

$ sbin/start-dfs.sh

        3.6.5)启动YARN(存放ResourceManager的节点在那个服务器上就在那个服务器上启动)

$ sbin/start-yarn.sh

集群启动/停止方式总结

    1)单节点

        启动/停止HDFS

hadoop-daemon.sh start/stop namenode/datanode/secondarynamenode

        启动/停止YARN

yarn-daemon.sh start/stop resourcemanager/nodemanager

    2)集群

        启动/停止HDFS

start-dfs.sh  /  stop-dfs.sh

        启动/停止YARN

start-yarn.sh  /  stop-yarn.sh 

        全部启动/全部停止

start-all.sh  /  stop-all.sh

相关文章

网友评论

      本文标题:2)Hadoop运行环境配置

      本文链接:https://www.haomeiwen.com/subject/ftwyzftx.html