最近学习了分布式老三篇之一MapReduce,是用于分布式计算的。
- MapReduce出现的背景
数据量十分多的时候,单机很难在较短的时间内返回计算结果,比如说网页抓取、倒排排序、日志处理等等。所以Google基于这样的背景提出了MapReduce的创新式的方式。 - MapReduce工作原理
MapReduce中采用的是分而治之的思想,将海量数据进行分发,然后进行汇总。用户提交的数据会传到master(主节点),然后master节点把它分到可用的worker节点进行Map,这里的map会将用户提交的信息进行初步处理,得到中间结果,返回给master节点。然后master节点进一步寻找可以reduce的worker节点。这个reduce函数会将上一步得到的结果进行汇总得到结果返回给Master节点。 - MapReduce的容错处理
worker节点挂掉的话,可以再寻找其他的worker,但是master挂掉的话,就只能是提醒用户进行重启。 - MapReduce与内存、缓存、磁盘、网络的关联
有待研究 - MapReduce如何配置才更加合理
网友评论