Hadoop构成
- 分布式存储HDFS
- 分布式计算MapReduce
- 资源调度引擎Yarn
HDFS: 块级别的分布式文件存储系统
- NameNode 存储文件的元数据,如文件名,文件目录结构,文件属性(文件权限, 生成时间,副本数)
- DataNode 在本地文件系统存储文件块数据以及块数据的校验和
- Secondary 用来监控HDFS状态的辅助后台程序,每隔一段时间获取HDFS元数据的快照
MapReduce:分布式计算框架
实际上他这个名字就是他的作用:map分发映射任务, reduce汇总结果
- MapReduce是把一个大任务拆分成很多小任务,然后分发给下面的服务器并行执行,最后再将接收小任务的服务器返回的结果进行汇总
image.png
Yarn: 分布式资源管理器
依据不同服务器的计算力和计算资源,分配合适大小的任务。计算力强的分配任务计算量大一点,计算力弱的接收小任务,充分利用计算资源加快运行。
网友评论