Hadoop 基本组成结构
- Hadoop HDFS 分布式文件系统
- Map Reduce 分布式离线并行计算框架
- Hadoop YARN 作业调度、集群资源管理的框架
- Hadoop Common 支持其他模块的工具模块(Configuration、RPC、序列化机制、日志)
Map Reduce
Map 将原始任务进行拆分
Reduce 将任务的结果进行合并
MapReduce将分布式的方法进行了封装,简化了分布式程序的开发过程
基本Map Reduce 程序结构
Map 阶段
Reduce 阶段
Driver 阶段
Hadoop 序列化
序列化的作用是将内存中的对象转换成字节序列便于存储
网友评论