概述
- 进行大量数据处理时,用MapReduce进行分布式计算,这样可大量减少计算时间
MapReduce技术简单介绍##
image.png- Map将任务分割成更小任务,由每台服务器分别执行
- Reduce将所有服务器返回的结果汇总,整理成最终结果
MapReduce 2.0 - YARN
- Hoodop的MapReduce架构称为YARN(另一种资源协助者),是效率更高的资源管理器核心
- Client客户端,用户向Resource Manage请求执行运算
- 在NameNode会有Resource Manage统筹管理运算请求
- 在其他的DateNode会有 Node Manager负责运行,监督每个任务运行情况,并向Resource Manage 汇报状态
MapReduce 的计算框架
image.png- Hadoop MapReduce 在运算时需要将中间产生的数据放在硬盘,然而磁盘的I/O是性能的瓶颈,所以会有数据延迟问题
- 推荐使用Spark,它是基于内存的计算框架
网友评论