美文网首页我爱编程
11.apache hadoop 伪分布式搭建

11.apache hadoop 伪分布式搭建

作者: 经纶先生 | 来源:发表于2017-08-31 15:37 被阅读0次

    通过伪分布式来回顾前面的知识,并通过演示来帮大家实验前面的知识点,然后初步带领大家了解hadoop配置文件,使我们对hadoop的认知不仅仅停留在理论基础上。

    当然这篇文仅仅是初步实验,后面我们会采用5台设备搭建真正的Hadoop集群,同时博主正在做500台Hadoop集群的搭建工作,我们会拿出100台来为大家展示大规模CDH集群的搭建及维护细节

    apache hadoop版本选择

    http://hadoop.apache.org/releases.html
    可以看出目前
    25 January, 2016: Release 2.7.2 (stable) available
    A point release for the 2.7 line.
    Please see the Hadoop 2.7.2 Release Notes for the list of 155 bug fixes and patches since the previous release 2.7.1.
    但是因为目前生产环境中大部分仍使用2.6版本,固我们本次课程演示Hadoop2.6的安装与维护
    28 October, 2015: Release 2.6.2 available
    Apache Hadoop 2.6.2 is a point release in the 2.6.x release line, and fixes a few critical issues in 2.6.1.
    Please see the Hadoop 2.6.2 Release Notes for details.
    所以我们使用hadoop 2.6.2

    安装java

    首先 java -version  检查本机有无java,如果有,检查是否为openjdk,如果是请卸载,安装oracle JDK 
    以下是安装过程
    mkdir -p /app/zpy/java
    tar zxvf jdk-8u51-linux-x64.tar.gz -C /app/zpy/java  > /dev/null 2>&1
    echo '# JAVA-8u51' >> /etc/profile
    echo 'JAVA_HOME=/app/zpy/java/jdk1.8.0_51' >> /etc/profile
    echo 'JAVA_BIN=/app/zpy/java/jdk1.8.0_51/bin' >> /etc/profile
    echo 'PATH=$PATH:$JAVA_BIN' >> /etc/profile
    echo 'CLASSPATH=$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar' >> /etc/profile
    echo 'export JAVA_HOME JAVA_BIN PATH CLASSPATH' >> /etc/profile
    source  /etc/profile
    echo " please open other session to test java "
    请使用 jdk 8 或以上版本 
    

    下载hadoop 源码包并解压:

    cd /app/zpy 
    wget https://dist.apache.org/repos/dist/release/hadoop/common/hadoop-2.6.2/hadoop-2.6.2.tar.gz
    tar zxvf hadoop-2.6.2.tar.gz
    mv hadoop-2.6.2  hadoop
    

    hadoop 目录说明

    • bin:Hadoop最基本的管理脚本和使用脚本的目录,这些脚本是sbin目录下管理脚本的基础实现,用户可以直接使用这些脚本管理和使用Hadoop。
    • etc:Hadoop配置文件所在的目录,包括core-site.xml、hdfs-site.xml、mapred-site.xml等从Hadoop1.0继承而来的配置文件和yarn-site.xml等Hadoop2.0新增的配置文件。
    • include:对外提供的编程库头文件(具体动态库和静态库在lib目录中),这些头文件均是用C++定义的,通常用于C++程序访问HDFS或者编写MapReduce程序。
    • lib:该目录包含了Hadoop对外提供的编程动态库和静态库,与include目录中的头文件结合使用。
    • libexec:各个服务对用的shell配置文件所在的目录,可用于配置日志输出、启动参数(比如JVM参数)等基本信息。
    • sbin:Hadoop管理脚本所在的目录,主要包含HDFS和YARN中各类服务的启动/关闭脚本。
    • share:Hadoop各个模块编译后的jar包所在的目录。

    配置环境变量

    vim /etc/profile.d/hadoop.sh
    添加
    export HADOOP_PRIFIX=/app/zpy/hadoop
    export PATH=$PATH:${HADOOP_PRIFIX}/bin:${HADOOP_PRIFIX}/sbin
    export HADOOP_YARN_HOME=${HADOOP_PRIFIX}
    export HADOOP_MAPPERD_HOME=${HADOOP_PRIFIX}
    export HADOOP_COMMON_HOME=${HADOOP_PRIFIX}
    export HADOOP_HDFS_HOME=${HADOOP_PRIFIX}
    

    创建hadoop 目录,并创建hadoop的数据和日志目录

    useradd hadoop
    mkdir -pv /data/hadoop/hdfs/{nn,snn,dn}    ##说明:nn:namenode  dn:datanode  snn:second namenode 
    mkdir -pv /data/hadoop/logs 
    
    修改属主,属组
    chown -R  hadoop:hadoop /data/hadoop/
    chown -R  hadoop:hadoop /app/zpy/hadoop
    

    修改 core-site.xml

    core-site.xml 文件包含了NAMEnode主机地址以及其监听的RPC端口信息,对于伪分布式模型的安装来说,其主机地址为localhost。
    NameNode默认使用的RPC端口为8020.
    
    RPC的解释:
    RPC(Remote Procedure Call Protocol)——远程过程调用协议,它是一种通过网络从远程计算机程序上请求服务,而不
    需要了解底层网络技术的协议。
    RPC协议假定某些传输协议的存在,如TCP或UDP,为通信程序之间携带信息数据。在OSI网络通信模型中,RPC跨越了传输层和应用层。RPC使得开发包括网络分布式多程序在内的应用程序更加容易。
    
    我们打开后发现配置文件如下:
    <configuration>
    </configuration>
    ↑其实这两行就是一个闭合标签,我们应该在这两个闭合标签内部增加一个或者多个属性(property)标签
    
    如下所示
    <configuration>
     <property>
      内容1。。。
     </property>
    
    <property>
      内容2。。。
     </property>
    
    </configuration>
    
    最终配置文件修改如下:
    <configuration>
     <property>
            <name>fs.defaultFS</name>
            <value>hdfs://localhost:8020</value>
            <final>true</final>
     </property>
    </configuration>
    
    

    hdfs-site.xml文件配置案例

    hdfs-site.xml主要用于配置HDFS的相关属性,例如数据块的副本数、NN和DN用于存储数据的目录等。
    数据块的副本数对于伪分布式的HADOOP来说应该是1
    NN和DN用于存储数据的目录为前面设置的路径

    <configuration>
        <property>
            <name>dfs.replication</name>
            <value>1</value>
        </property>
    
        <property>
            <name>dfs.namenode.name.dir</name>
            <value>file:///data/hadoop/hdfs/nn</value>
        </property>
    
        <property>
            <name>dfs.datanode.data.dir</name>
            <value>file:///data/hadoop/hdfs/dn</value>
        </property>
    
        <property>
            <name>fs.checkpoint.dir</name>
            <value>file:///data/hadoop/hdfs/snn</value>
        </property>
    
        <property>
            <name>fs.checkpoint.edits.dir</name>
            <value>file:///data/hadoop/hdfs/snn</value>
        </property> 
    </configuration>
    注意: 如果需要其他用户对HDFS有写入的权限,还需要再hdfs-site.xml中添加一项属性定义
        <property>
            <name>dfs.permissions</name>
            <value>false</value>
        </property>
    

    修改mapred-site.xml

    mapred-site.xml文件用于配置集群的MapReduce framework ,此处应该指定使用yarn,另外可用的值还有
    local和classic。
    mapred-site.xml 默认是不存在的,但有模块文件mapred-site.xml.template ,只需要将其复制为mapred-site.xml即可 
    cp mapred-site.xml.template  mapred-site.xml
    
    修改配置文件:
    <configuration>
     <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
     </property>
    </configuration>
    
    

    配置yarn-site.xml

    yarn-site.xml 用于配置YARN进程及YARN的相关属性,首先需要指定ResourceManager守护进程的主机及监听的端口,
    对于伪分布式模型来讲,其主机为localhost,默认的端口为8032;
    其次需要指定ResourceManager使用的scheduler(调度器),以及NodeManager的辅助服务
    一个简要的配置实例如下所示:

    <configuration>
     <property>
      <name>yarn.resourcemanager.address</name>
      <value>localhost:8032</value>
     </property>
     
     <property>
      <name>yarn.resourcemanager.scheduler.address</name>
      <value>localhost:8030</value>
     </property>
    
     <property>
      <name>yarn.resourcemanager.resource-tracker.address</name>
      <value>localhost:8031</value>
     </property>
     
     <property>
      <name>yarn.resourcemanager.admin.address</name>
      <value>localhost:8033</value>
     </property>
     
     <property>
      <name>yarn.resourcemanager.webapp.address</name>
      <value>localhost:8088</value>
     </property>
    
     <property>
      <name>yarn.nodemanager.aux-services</name>
      <value>mapreduce_shuffle</value>
     </property>
     
    
     <property>
      <name>yarn.nodemanager.auxservices.mapreduce_shuffle.class</name>
      <value>org.apache.hadoop.mapred.ShuffleHandler</value>
     </property>
    
     
     <property>
      <name>yarn.resourcemanager.scheduler.class</name>
     <value>org.apache.hadoop.yarn.server.resourcemanager.scheduler.capacity.CapacityScheduler</value>
     </property>
    </configuration>
    
    

    配置hadoop-env.sh 和 yarn.env.sh

    HADOOP的守护进程依赖于JAVA_HOME环境变量,如果有类似于前面步骤中通过/etc/profile.d/java.sh全局配置定义的JAVA_HOME变量即可正常使用
    不过,如果想为HADOOP定义依赖到的特定JAVA环境,也可以编辑这两个脚本文件,为JAVA_HOME取消注释并配置合适的值即可。
    此外hadoop大多数守护进程默认使用的堆大小为1GB,但是显示应用中,可能对其各类进程的堆内存大小做出调整,这只需要编辑这两个文件中的相关
    环境变量即可,例如HADOOP_HEAPSIZE,HADOOP_JOB_HISTORY_HEAPSIZE,JAVA_HEAP_SIZE和YARN_HEAP_SIZE等

    配置 slaves 文件

    slaves文件存储了当前集群的所有slave节点的列表,对于伪分布式模型,其文件内容应该仅为localhost,这也是这个文件的默认内容
    因此伪分布式模型中,此文件的内容保持一致即可

    格式化HDFS

    在HDFS的NN启动之前需要先初始化其用于存储数据的目录,如果hdfs-site.xml中的dfs.namenode.name.dir 属性指定的目录不存在,格式化命令会自动创建;
    如果事先存在,请确保其权限设置正确,此时格式化操作会清除其内部所有数据并重新建立一个新的文件系统。

    chown -R hadoop:hadoop /data/hadoop
    chown -R hadoop:hadoop /app/zpy/hadoop
    su hadoop
    以hadoop用户执行:
    hdfs namenode -format
    

    看格式化是否成功,应该找到这样一句话
    17/04/17 10:07:17 INFO common.Storage: Storage directory /data/hadoop/hdfs/nn has been successfully formatted.

    检测data/hadoop/hdfs/nn/发现多了一个current

    /data/hadoop/hdfs/nn/current
    [hadoop@localhost current]$ ll
    total 16
    -rw-rw-r-- 1 hadoop hadoop 353 Apr 14 09:57 fsimage_0000000000000000000
    -rw-rw-r-- 1 hadoop hadoop  62 Apr 14 09:57 fsimage_0000000000000000000.md5
    -rw-rw-r-- 1 hadoop hadoop   2 Apr 14 09:57 seen_txid
    -rw-rw-r-- 1 hadoop hadoop 202 Apr 14 09:57 VERSION
    

    至此格式化成功

    启动hadoop 说明(以下命令暂不执行)

    hadoop2 的启动操作可通过其sbin路径下的专用脚本进行启动

    例如:
    
    hadoop-daemon.sh(start|stop)namenode  --这是启动namenode的
    hadoop-daemon.sh(start|stop)datanode  --这是启动datanode的
    hadoop-daemon.sh(start|stop)secondarynamenode  --这是启动secondarynamenode的
    yarn-daemon.sh(start|stop)resourcemanager
    yarn-daemon.sh(start|stop)nodemanager
    

    启动HDFS相关

    HDFS有三个守护进程,namenode、datanode、和secondarynamenode.他们都可以通过hadoop-daemon.sh 脚本启动或者停止。
    以hadoop用户执行相关的命令即可,如下所示:

    [hadoop@localhost sbin]$ hadoop-daemon.sh start namenode 
    starting namenode, logging to /app/zpy/hadoop/logs/hadoop-hadoop-namenode-localhost.out
    

    ok,那么namenode启动起来了,进入提示的日志文件目录发现其中两个文件

    hadoop-hadoop-namenode-localhost.log
    hadoop-hadoop-namenode-localhost.out
    实际上日志文件是.log结尾的,而非提示的.out
    

    jps命令检查是否启动成功:

    [hadoop@localhost logs]$ jps
    27449 Jps
    27214 NameNode
    jps -v 可以看详细的信息
    

    启动secondarynamenode

    hadoop-daemon.sh start secondarynamenode
    starting secondarynamenode, logging to /app/zpy/hadoop/logs/hadoop-hadoop-secondarynamenode-localhost.out
    

    启动datanode节点
    ps:正常生产环境中,我们是不会把datanode与namenode放在一起的,因为这个实验是伪分布式集群

    hadoop-daemon.sh start datanode
    结果:starting datanode, logging to /app/zpy/hadoop/logs/hadoop-hadoop-datanode-localhost.out
    

    用jps 检查所有启动结果

    [hadoop@localhost logs]$ jps
    39282 SecondaryNameNode
    38979 NameNode
    39531 Jps
    39423 DataNode
    

    现在我们HDFS启动完成,我们要看看HDFS的使用方式,详见
    apache hadoop 伪分布式搭建-part2-HDFS简单命令

    启动yarn

    启动resourcemanager :

    yarn-daemon.sh start resourcemanager 
    结果:starting resourcemanager, logging to /app/zpy/hadoop/logs/yarn-hadoop-resourcemanager-localhost.out
    jps命令检查是否启动成功
    

    启动nodemanager:

    yarn-daemon.sh start nodemanager 
    

    使用jps命令查看

    [hadoop@bogon root]$ jps
    39282 SecondaryNameNode
    3490 Jps
    38979 NameNode
    3275 NodeManager
    2926 ResourceManager
    39423 DataNode
    

    WEBUI

    HDFS和YARN ResourceManager 各自提供了一个web接口,通过这些接口可以检查HDFS集群以及YARN集群的相关状态信息。
    他们的访问接口分别为如下所示,具体使用中,需要将Namenode和RresourceManagerHost分别修改其相应的主机地址

    HDFS-NameNode WEBUI

    访问方式:
    http://10.0.140.81:50070

    namedode WEBUI

    可以看出很多有用的信息
    Configured Capacity: 279.72 GB
    DFS Used: 44 KB
    Non DFS Used: 17.88 GB
    DFS Remaining: 261.84 GB
    DFS Used%: 0%
    DFS Remaining%: 93.61%
    Live Nodes 1 (Decommissioned: 0)
    Dead Nodes 0 (Decommissioned: 0)
    Decommissioning Nodes 0

    ResourceManager WEBUI

    访问方式:
    http://10.0.140.81:8088

    注意: 在yarn-site.xml文件中yarn.resourcemanager.webapp.address属性的值如果定义为"localhost:8088",则其WEBUI 仅监听于127.0.0.1地址上的8088端口

    也可以通过ss -tnl来看:50070是所有地址,8088是本地地址

    ss -tnl
    LISTEN      0      128                                                                     127.0.0.1:8020 
    LISTEN      0      128                                                                             *:50070    
    LISTEN      0      128                                                              ::ffff:127.0.0.1:8088   
    

    所以我们修改配置文件yarn-site.xml

     <property>
       <name>yarn.resourcemanager.webapp.address</name>
       <value>10.0.140.81:8088</value>
     </property>
    

    重启:
    yarn-daemon.sh stop resourcemanager
    yarn-daemon.sh start resourcemanager

    resource manager WEBUI

    向HADOOP 提交mapreduce 程序

    ok,现在我们HDFS搭建完毕了,YARN也搭建完毕了,现在我们想在YARN上跑一个mapreduce程序。我又不会写map和reduce程序,怎么办?

    hadoop为我们提供了测试包
    hadoop-YARN 自带了很多样例程序,他们位于hadoop安装路径下的
    share/hadoop/mapreduce/目录里,其中hadoop-mapreduce-examples-2.6.2.jar 就可以作为mapreduce的程序测试!

    执行测试

    yarn jar hadoop-mapreduce-examples-2.6.2.jar

    提示如下:

    An example program must be given as the first    argument. (必须要跟一个程序名)
    Valid program names are:
      aggregatewordcount: An Aggregate based map/reduce program that counts the words in the input files.
      aggregatewordhist: An Aggregate based map/reduce program that computes the histogram of the words in the input files.
      bbp: A map/reduce program that uses Bailey-Borwein-Plouffe to compute exact digits of Pi.
      dbcount: An example job that count the pageview counts from a database.
      distbbp: A map/reduce program that uses a BBP-type formula to compute exact bits of Pi.
      grep: A map/reduce program that counts the matches of a regex in the input.
      join: A job that effects a join over sorted, equally partitioned datasets
      multifilewc: A job that counts words from several files.
      pentomino: A map/reduce tile laying program to find solutions to pentomino problems.
      pi: A map/reduce program that estimates Pi using a quasi-Monte Carlo method.(求π值的)
      randomtextwriter: A map/reduce program that writes 10GB of random textual data per node.
      randomwriter: A map/reduce program that writes 10GB of random data per node.
      secondarysort: An example defining a secondary sort to the reduce.
      sort: A map/reduce program that sorts the data written by the random writer.
      sudoku: A sudoku solver.
      teragen: Generate data for the terasort
      terasort: Run the terasort
      teravalidate: Checking results of terasort
      wordcount: A map/reduce program that counts the words in the input files.
      wordmean: A map/reduce program that counts the average length of the words in the input files.
      wordmedian: A map/reduce program that counts the median length of the words in the input files.
      wordstandarddeviation: A map/reduce program that counts the standard deviation of the length of the words in the input files.
    
    
    yarn jar hadoop-mapreduce-examples-2.6.2.jar wordcount 
    Usage: wordcount <in> [<in>...] <out> 
    

    备注:in 与 out 都是指HDFS文件,而非本地文件

    ok,那我们再修改一下:

    yarn jar hadoop-mapreduce-examples-2.6.2.jar wordcount /dailiang/fstab /test/wordcount 
    

    ps:/test/wordcount 必须是目录,会自动在该目录下创建一个文件,并将结果存在此文件

    然后程序执行过程中,可以访问yarn的web界面,可以看到application程序正在运行:


    图片.png

    查看结果

    hdfs dfs -cat /test/wordcount/part-r-00000
    

    我们发现每个词语的数量都被统计出来了

    #       7
    '/dev/disk'     1
    /       1
    /boot   1
    /etc/fstab      1
    0       6
    2017    1
    21:19:01        1
    5       1
    Accessible      1
    Created 1
    Jul     1
    See     1
    UUID=1a1736eb-defa-49fc-9cfe-c5207f038338       1
    UUID=7477064f-a3bd-4d8c-b6d3-0d9ee8c50297       1
    UUID=9712c227-d80b-4c87-87b7-b6d674d8811b       1
    

    ok。。这就是整个伪分布式集群的搭建过程

    相关文章

      网友评论

        本文标题:11.apache hadoop 伪分布式搭建

        本文链接:https://www.haomeiwen.com/subject/ccrqjxtx.html