Hadoop

作者: RoyTien | 来源:发表于2020-11-30 13:28 被阅读0次

狭义 Hadoop

  • HDFS
  • MapReduce
  • Yarn 资源调度

广义 Hadoop
辅助框架

  • flume 日志采集
  • Sqoop 关系型数据库的采集

Hive - 依赖 Hadoop, SQL
Hbase - 大数据的数据库

image.png

Hadoop 特点

  1. 扩容能力 scalable
  2. 低成本 economical
  3. 高效率 efficient
  4. 可靠性 reliable

HDFS 分布式文件系统

分而治之,数据切割,制作副本,分散存储

image.png

NameNode(nn) - 存储文件元数据(文件名,文件目录结构,文件属性,文件数据块列表,块所在 datanode 列表)
SecondaryNameNode(2nn) - 监控 HDFS 状态,备份 HDFS 元数据快照
DataNode(dn) - 存储文件数据块,
nn, 2nn, dn - 即使角色名称,又是进程名称,代指电脑节点名称

MapReduce 分布式离线并行计算框架

拆解任务,分散处理,汇整结果

image.png

Map - 并行处理数据
Reduce - 对 Map 阶段的结果进行汇总

Yarn 作业调度,集群资源管理的框架

计算资源协调

image.png

ResourceManager(rm) - 处理客户端请求,启动 / 监督 ApplicationMaster,监控 NodeManager,资源分配与调度
NodeManager(dm) - 单个节点上的资源管理,处理来自 ResourceManager的命令
ApplicationMaster - 数据切分,为应用程序申请资源,并分配给内部任务,任务监控和容错
Container - 对任务环境的抽象,封装了 CPU,内存等多维资源以及环境变量,启动命令等任务运行相关的信息

common

支持其他模块的工具模块 configuration,RPC,序列化机制,日志

相关文章

网友评论

    本文标题:Hadoop

    本文链接:https://www.haomeiwen.com/subject/hifevktx.html