美文网首页
Hadoop 总结 一 入门介绍

Hadoop 总结 一 入门介绍

作者: 千山暮雪CN | 来源:发表于2020-07-28 16:15 被阅读0次

    Hadoop 总结 一 入门介绍

    1.1 是什么?

    1. Apache基金会的 分布式系统基础架构
    2. 应用于海量数据的存储,分析,计算的问题
    3. 广义上讲,Hadoop通常指----Hadoop生态圈,类似Java开发中所指的spring,及spring全家桶的概念.

    1.2 Hadoop优势

    1. 高可靠性:Hadoop底层维护多个数据副本存在于不同的DataNode上,所以可能有节点挂掉,也不会导致数据丢失,这里排除绝对的意外情况,比如自然灾害,或者人为因素.
    2. 高扩展性:在集群中分配任务数据,可以方便的扩展大量的节点.
    3. 高效性:在MapReduce的设计思想下,Hadoop是并行进行计算工作的,以加快任务的处理速度.
    4. 高容错性:能在执行失败的任务自动的重新分配.

    1.3 Hadoop的组成结构

    1. Hadoop 1.x版本

      MapReduce:进行计算+资源调度

      HDFS:数据存储

      Common:辅助工具集

    2. Hadoop 2.x版本及Hadoop3.x

      MapReduce:计算

      Yarn:资源调度,从1.x的版本中的MapReduce分离出来,程序的分工更加细致,耦合性进一步降低

      HDFS:数据存储

      Common:数据集

    1.4 HDFS架构简介

    1. NameNode(nn):存储文件的元数据,文件名,目录结构,属性,生成时间,副本数,块数,权限,块所在节点等
    2. DataNode(dn):在系统节点中存储文件块数据,以及块数据的校验和,上报块信息等
    3. secondary NameNode(2nn):每隔一段时间对NameNode(nn)进行元数据备份

    1.5 Yarn架构简介

    1. ResourceManager(rm):

      处理客户端请求

      监控nodeManager

      启动或监控applicationMaster

      资源的分配与调度

    2. NodeManager(nm):

      管理各个节点上的资源

      处理来自ResourceManager命令

      处理来自ApplicationMaster的命令

    3. ApplicationMaster(am):

      负责数据的切分

      为应用程序申请资源并分配给内部的任务

      任务的监控与容错

    4. Container:

      container是yarn中的资源抽象,它封装了某个节点上的多维度资源,如内存,cpu,磁盘,网络IO资源等

    1.6 MapReduce架构简介

    1. 阶段一:map阶段

      map阶段并行处理输入的数据

    2. 阶段二:reduce阶段

      reduce阶段对map阶段的处理结果进行汇总处理

    相关文章

      网友评论

          本文标题:Hadoop 总结 一 入门介绍

          本文链接:https://www.haomeiwen.com/subject/mxofrktx.html