【Mac大数据开发】第三篇-Hadoop概论

作者: irving_yuan | 来源:发表于2019-06-26 07:20 被阅读1次

    1.Hadoop起源

    • Lucene的一个子项目
    • 思想源于Google的三篇论文
      GFS - HDFS 分布式文件系统
      Map-Reduce - MR 分布式计算框架
      Big-Table - Hbase

    2.Hadoop的优势

    • 高可用
      几乎所有结构都是主从模式的,数据存在副本和备份,保证高可用
    • 高扩展性
      在集群间分布式的分配数据方案,支持扩展到数千台服务器
    • 高效
      Map-Reduce并行计算,提高计算效率
    • 高容错性
      自动保存多个数据副本,能够自动将执行失败的任务重新分配

    3.Hadoop的组成

    1. HDFS
      一个高可用,高吞吐量的分布式文件系统
    2. MapReduce
      一个分布式的离线并行计算框架
    3. Yarn
      任务调度与集群资源管理的框架
    4. Common
      一些基础的支持模块功能(RPC、序列化机制、Configuration、日志等)


      hadoop的组成部分

    4.HDFS架构概述

    HDFS系统具有一下几种角色的节点

    • NameNode(nn):命名节点,存储各节点的元数据信息(基础信息,如IP地址等)
    • DataNode(dn):数据节点,存储数据块
    • SecondaryNode(sn):监控NameNode元数据,定期合并元数据,在异常情况下升级成为NameNode

    5.Yarn架构概述

    Yarn集群中,节点主要包含4个角色(前两个是核心)

    • ResourceManager(rm):处理客户端请求,监控ApplicationMaster
    • NodeManager(nm):单个节点上的资源管理,处理再自ResourceManger、ApplicationMaster的指令
    • ApplicationMaster:数据切分,为应用程序申请资源,任务监控
    • Container:对任务运行环境的抽象

    6.MapReduce架构概述

    MapReduce将计算过程分成两个阶段
    Map对数据并行处理
    Reduce阶段对Map的结果进行整合汇总

    相关文章

      网友评论

        本文标题:【Mac大数据开发】第三篇-Hadoop概论

        本文链接:https://www.haomeiwen.com/subject/ltsfcctx.html