美文网首页
Hadoop 笔记

Hadoop 笔记

作者: Marlon666 | 来源:发表于2020-03-23 14:56 被阅读0次

    Hadoop框架简介

    HDFS 数据存储
    NameNode:存储数据的元数据
    相当于书籍的目录

    DataNode
    本地的文件系统存储文件块数据,以及块数据的校验和。

    Secondary NameNode
    用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照。

    YARN架构:

    四大组件
    Resource Manger
    1、处理客户请求
    2、监控NodeManager
    3、启动或监控ApplicationMaster
    4、资源的分配玉调度

    NodeManager(NM)主要作用如下
    1、管理单个节点上的资源
    2、处理来自ResourceManager的命令
    3、处理来自ApplicationMaster的命令

    ApplicationMaster 作用如下:
    1、负责数据的切分
    2、为应用程序申请资源并分配给内部的任务
    3、任务的监控与容错

    Container
    1、Container 中YARN中的资源抽象,它封装了某个节点上的多个维度资源。例如内存、CPU、磁盘、网络等

    MapReduce

    Map=》 匹配
    Reduce =》 汇总结果

    Sqoop 数据传输
    Flume 日志收集
    Kafka 消息队列
    HBase 非关系型数据库
    HDFS文件存储

    MapReduce 离线计算 =》 MapReduce 离线计算 Hive数据查询 + Mahout数据挖掘 (重点)
    Spark Core内存计算
    Pig (简单Sql)
    Spark Mlib 数据挖掘
    Spark R数据分析
    Spark Sql 数据查询
    Spark Streaming 实时计算 =》非实时, 批处理
    Storm 实时计算 (非重点)

    Flink

    Oozie 任务调度
    AzkaBan 任务调度

    相关文章

      网友评论

          本文标题:Hadoop 笔记

          本文链接:https://www.haomeiwen.com/subject/lilwyhtx.html