狭义 Hadoop
- HDFS
- MapReduce
- Yarn 资源调度
广义 Hadoop
辅助框架
- flume 日志采集
- Sqoop 关系型数据库的采集
Hive - 依赖 Hadoop, SQL
Hbase - 大数据的数据库

Hadoop 特点
- 扩容能力 scalable
- 低成本 economical
- 高效率 efficient
- 可靠性 reliable
HDFS 分布式文件系统
分而治之,数据切割,制作副本,分散存储

NameNode(nn) - 存储文件元数据(文件名,文件目录结构,文件属性,文件数据块列表,块所在 datanode 列表)
SecondaryNameNode(2nn) - 监控 HDFS 状态,备份 HDFS 元数据快照
DataNode(dn) - 存储文件数据块,
nn, 2nn, dn - 即使角色名称,又是进程名称,代指电脑节点名称
MapReduce 分布式离线并行计算框架
拆解任务,分散处理,汇整结果

Map - 并行处理数据
Reduce - 对 Map 阶段的结果进行汇总
Yarn 作业调度,集群资源管理的框架
计算资源协调

ResourceManager(rm) - 处理客户端请求,启动 / 监督 ApplicationMaster,监控 NodeManager,资源分配与调度
NodeManager(dm) - 单个节点上的资源管理,处理来自 ResourceManager的命令
ApplicationMaster - 数据切分,为应用程序申请资源,并分配给内部任务,任务监控和容错
Container - 对任务环境的抽象,封装了 CPU,内存等多维资源以及环境变量,启动命令等任务运行相关的信息
common
支持其他模块的工具模块 configuration,RPC,序列化机制,日志
网友评论