Mapreduce实现原理总结

作者: z小赵 | 来源:发表于2017-09-20 16:27 被阅读139次

Mapreduce实现原理总结
Mapreduce
iOS底层原理总结 - 关联对象实现原理
Hadoop大数据平台架构与实践 | MapReduce
MapReduce的工作原理
Hadoop技术内幕：深入解析MapReduce架构设计与实现原
Marks Review - Data
大数据学习day_5
大数据相关
day08.MAPREDUCE详解【大数据教程】

一.首先，我们从客户端，JobTracker，TaskTracker这个层面来分析整个mapreduce过程

①.首先在客户端启动一个作业。

②.客户端向JobTracker申请一个作业号，这个作业号默认是以当前的时间组成的，可以通过mapreduce.job.name（2.0以后使用的参数）或mapred.job.name（1.0使用的参数）参数来指定作业的名字。

③.框架会将本次要执行的作业资源文件从本地复制到HDFS上面，复制的资源文件主要包括MapReduce打包的Jar文件（默认是10份），配置文件和客户端计算所得的输入划分信息。这些文件会被存放在一个名为JobID的文件夹下面。

④.JobTracker接收到作业以后，将其放入到一个作业队列中去，等待作业调度线程对其调用，当作业调度线程根据算法调度到该作业的时候（默认是FIFO机制），会根据划分信息为每一个划分信息创建一个map任务，然后创建的map任务分配给TaskTracker去执行；这里将map分配给TaskTracker的规则是：将map分配给当前任务要处理的数据存放位置对应的那个TaskTracker节点上去执行（这个就是数据本地化，移动任务执行位置，而不是移动数据位置，从而提高效率）

⑤.TaskTracker和JobTracker之间通过心跳机制保持联系，即TaskTracker每隔一段时间会向JobTracker汇报自己的运行情况；当最后一个任务完成时，JobTracker会将这个任务标记为“成功”，JobClient查询的时候会向相关的执行结果告知用户。

二.从shuffle和排序的角度来分析一下整个TaskTracker执行流程