MapReduce是谷歌提出的一个分布式计算模型
是把大量的数据分解成独立单元执行,这些个独立单元就是Map,然后将结果归并在一起,这个最后的归并就是Reduce
有一段独立程序,可以实现对单个文件的输入,然后对文件进行处理,计算出一些key值及其对应的value,这个就是一个map要完成的任务,为了实现大量数据同时计算,提高效率,增加服务器,使用多个map同时进行这个程序的运转
上述每个map机器计算完成后将相同key的数据结果传输给相同的一个负责Reduce的机器,这样最后每个key极其结果value都送到了对应机器上,然后计算结束后,将所有的key及其对应的value都汇总后输出最终结果
网友评论