美文网首页
2)Hadoop运行环境配置

2)Hadoop运行环境配置

作者: bullion | 来源:发表于2018-10-19 15:43 被阅读0次

    官方手册 2.7.2版本


    Linux环境准备

    1)关闭防火墙,配置静态ip,主机名称

    2)安装 JDK 配置环境变量

    3)安装Hadoop 配置环境变量

    4)配置 SSH


    运行环境

    1)本地模式

    运行本地grep官方案例:

    $ mkdir input

    $ cp etc/hadoop/*.xml input

    $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar grep input output 'dfs[a-z.]+'

    $ cat output/*

    运行本地WordCount官方案例:

    $ mkdir wcinput

    $ bin/hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.2.jar wordcount wcinput/ wcoutput

    $ cat wcoutput/*


    2)伪分布模式

    (伪分布模式)启动HDFS并运行MapReduce程序

    (伪分布模式)启动YARN并运行MapReduce程序

    3)完全分布式模式

        3.1)部署规划

        3.2)参考

            (伪分布模式)启动HDFS并运行MapReduce程序

            (伪分布模式)启动YARN并运行MapReduce程序

        3.3)修改配置文件

            3.3.1)HDFS配置文件

                指定Hadoop辅助名称节点可修改 etc/hadoop/hdfs-site.xml:

    <configuration>

        <!-- 指定HDFS副本的数量 -->

        <property>

            <name>dfs.replication</name>

            <value>3</value>

        </property>

        <!-- 指定Hadoop辅助名称节点主机配置 -->

        <property>

            <name>dfs.namenode.secondary.http-address</name>

            <value>hadoop104:50090</value> <!-- hadoop104为主机名称 -->

        </property>

    </configuration>

            3.3.2)YARN配置文件

                指定YARN的ResourceManager地址可修改etc/hadoop/yarn-site.xml:

    <configuration>

        <!-- 指定Reducer获取数据的方式 -->

        <property>

            <name>yarn.nodemanager.aux-services</name>

            <value>mapreduce_shuffle</value>

        </property>

        <!-- 指定YARN的ResourceManager的地址 -->

        <property>

            <name>yarn.resourcemanager.hostname</name>

            <value>hadoop103</value> <!-- hadoop103为主机名称 -->

        </property>

    </configuration>

            3.3.3)MapReduce配置文件

                制定MR运行在YARN上可修改etc/hadoop/mapred-site.xml 增加如下配置:

    <!-- 制定MR运行在YARN上 -->

    <property>

        <name>mapreduce.framework.name</name>

        <value>yarn</value>

    </property>

        3.4)使用集群分发脚本分配置好的Hadoop配置文件

    $ xsync /opt/module/hadoop-2.7.2/

            3.4.1)查看文件分发情况

    $ cat /opt/module/hadoop2.7.2/etc/hadoop/core-site.xml

        3.5)集群单节点启动

            3.5.1)格式化

    $ bin/hdfs namenode -format

            3.5.2)启动

    无SSH需要每台服务器一个一个节点启动

    $ sbin/hadoop-daemon.sh start namenode

    $ sbin/hadoop-daemon.sh start datanode

    SSH无密登录配置,配置完成后还需要进行3.6)群起集群的操作

        3.6)群起集群

            3.6.1)配置slaves

    /opt/module/hadoop-2.7.2/etc/hadoop/slaves

    $ vim slaves

            3.6.2)增加如下内容,存放DataNode的节点的主机名称,注意不允许有空格和空行

    hadoop102

    hadoop103

    hadoop104

            3.6.3)分发slaves

    $ xsync slaves

            3.6.4)启动HDFS

    $ sbin/start-dfs.sh

            3.6.5)启动YARN(存放ResourceManager的节点在那个服务器上就在那个服务器上启动)

    $ sbin/start-yarn.sh

    集群启动/停止方式总结

        1)单节点

            启动/停止HDFS

    hadoop-daemon.sh start/stop namenode/datanode/secondarynamenode

            启动/停止YARN

    yarn-daemon.sh start/stop resourcemanager/nodemanager

        2)集群

            启动/停止HDFS

    start-dfs.sh  /  stop-dfs.sh

            启动/停止YARN

    start-yarn.sh  /  stop-yarn.sh 

            全部启动/全部停止

    start-all.sh  /  stop-all.sh

    相关文章

      网友评论

          本文标题:2)Hadoop运行环境配置

          本文链接:https://www.haomeiwen.com/subject/ftwyzftx.html