第15章大数据与MapReduce

作者: 1597830b3381 | 来源:发表于2017-09-02 18:05 被阅读0次

当数据集特别大时，在单机上训练算法需要运行好几天。所以，本章就介绍一些实用的工具来解决这样的问题，包括Hadoop以及一些基于Hadoop的Python工具包。、

Hadoop是MapReduce框架的一个免费开源实现。本章首先简单介绍MapReduce和Hadoop项目，然后学习如何使用Python编写MapReduce作业（一个作业就是指把一个MapReduce程序应用到一个数据集上）。

15.1 MapReduce：分布式计算的框架

MapReduce是一个软件框架，可以将单个计算作业分配给多个计算机执行。它假定这些作业在单机上需要很长的运行时间，因此使用多台机器缩短运行时间。

MapReduce在大量节点组成的集群上运行。它的工作流程是：单个作业被分成很多小份，输入数据也被切片分发到每个节点，各个节点只在本地数据上做运算，对应的运算代码称为mapper，这个过程被称为map阶段。每个mapper的输出通过某种方式组合（一般还会排序）。排序后的结果再被分成小份分发到各个节点进行下一步处理工作。第二步的处理阶段称为reduce阶段，对应的运行代码被称为reducer。reducer的输出就是程序最终执行结果。

Mapeduce的优势在于，它使得程序以并行方式执行。在任何时候，每个mapper或reducer之间都不进行通信（这里指mapper各自之间不通信，reducer各自之间不通信，而reducer会接收mapper生成的数据）。每个节点只处理自己的事务，且在本地分配的数据集上运算。

reducer的数量不是固定的。此外，在MapReduce框架中还有其他一些灵活的配置选项。MapReduce的整个编制工作由主节点组成。这些主节点控制整个MapReduce作业编配。包括每份数据存放的节点位置，以及map、sort和reduce等阶段的时序控制等。此外，主机诶单还包含容错机制。一般的，每份mapper的输入数据会同时分发到多个节点形成副本，用于事务的失效处理。

总结一下，MapReduce的学习要点：

（1）主节点控制MapReduce的作业流程

（2）MapReduce的作业可以分为map任务和reduce任务

（3）map任务之间不做数据交流，reduce任务也一样

（4）在map和reduce阶段之间，有一个sort或combine阶段

（5）数据被重复存放在不同机器上，以防某个机器失效

（6）mapper和reducer传输的数据形式为key/value对。

Apache的Hadoop项目是MapReduce框架的一个实现。下一节开始讨论Hadoop项目，并介绍如何在Python中使用它。

15.2 Hadoop流

Hadoop流是一个开源java项目，为运行MapReduce作业提供了大量所需的功能。除了分布式计算之外，Hadoop自带分布式文件系统。

15.2.1 分布式计算均值和方差的mapper

我们将构建一个海量数据上分布式计算均值和方差的MapReducer作业，这里只选取了一个小数据集。

mapper

15.2.2 分布式计算均值和方差的reducer

mapper接收原始的输入并产生中间值传递给reducer。很多mapper是并行执行的，所以要将这些mapper的输出合并成一个值。接下来给出reducer的代码：将中间的key/value对进行组合。

reducer

15.5 在Python中使用mrjob来自动化MapReduce

停更。。。

后面看不懂了。。。

也不想看了。。。

至此，我光荣宣布！

这本书老子看完了！！！

当然。。。还有历史遗留问题待解决。。。

如~SVM那一章还没看。。。最后几章代码没完全懂。。。

开始回头。。。解决遗留问题。。。

这不重要！！！！这本书终于他妈的看到底了~！

虽然之后不知道该干嘛了~

虽然开学了，逼事又多了起来~

但是想想有点小激动~

农药一把~平复一下~

网友评论

本文标题：第15章大数据与MapReduce

本文链接：https://www.haomeiwen.com/subject/meerjxtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

第15章大数据与MapReduce

15.1 MapReduce：分布式计算的框架

15.2 Hadoop流

15.2.1 分布式计算均值和方差的mapper

15.2.2 分布式计算均值和方差的reducer

15.5 在Python中使用mrjob来自动化MapReduce

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

第15章 大数据与MapReduce

15.1 MapReduce：分布式计算的框架

15.2 Hadoop流

15.2.1 分布式计算均值和方差的mapper

15.2.2 分布式计算均值和方差的reducer

15.5 在Python中使用mrjob来自动化MapReduce

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

第15章大数据与MapReduce