好程序员大数据培训分享MAPREDUCE

作者: ab6973df9221 | 来源:发表于2019-08-22 14:15 被阅读1次

好程序员大数据培训分享Mapreduce中job的提交流程
好程序员大数据培训分享MapReduce全流程总结
好程序员大数据培训分享MapReduce经验杂谈十则
好程序员大数据培训分享MapReduce2.x架构
好程序员大数据学习路线之mapreduce概述
好程序员大数据培训分享MapReduce全过程解析
好程序员大数据培训分享MAPREDUCE
好程序员大数据教程路线分享marpreduce快速入门
好程序员分享大数据培训课程三大必备技能
好程序员大数据培训分享弹性分布式数据集RDD

　　好程序员大数据培训分享MAPREDUCE，需求：统计大量的文本文件中的单词出现的次数

- 1）整个运算需要分阶段

- 阶段一：并行局部运算

- 阶段二：汇总处理，不同的阶段需要开发不同的程序

- 2）阶段之间的调用

- 3）业务程序（task程序）如何并发到集群并启动程序

- 4）如何监控task程序的运行状态，如何处理异常

- ::这些问题是开发分布式程序都会面临的问题，完全可以封装成框架::

MR 的结构

- 一个完整的MapReduce运行时有三类实例进程：

- 1）MRAppMaster ：负责整个程序的过程调度和状态调度

- 2）mapTask：负责map阶段的整个数据处理流程

- 3）ReduceTask：负责reduce阶段的整个数据处理流程

MR设计框架

::MAPERDUCE详细框架::

- 1）资源如何分发？ ::放到HDFS:::中不能由客户端发送，如果配置1000台机器，也不能做pipeline，所以，可以把jar放在HDFS中的一个目录下。

- 2）虽然有上千台机器，现在job只需要20台机器即可完成，由谁决定是哪20台机器？::ResourceManager:: 作为master

- 3)worker--NODEMANAGER,执行应用程序，监控应用程序的资源使用情况（cpu，磁盘，网络，硬盘）并且向调度器ResourceManager汇报

![](MAPREDUCE/%E5%B1%8F%E5%B9%95%E5%BF%AB%E7%85%A7%202018-09-19%20%E4%B8%8B%E5%8D%889.27.42.png)

::作业提交流程::

- 1）客户端提交作业给resourcemanager

- 2）resourcemanager返回jobid，存储路径path信息

- 3）客户端将job.jar 、job.split（确定需要运行多少task）、job.splitinfo等资源上传到HDFS的存储路径

- 4）上传到hdfs完成后，客户端通知resourcemanager启动job

- 5）resourcemanager将job加入到job*等待队列*，然后nodemanager启动container，将资源下载到container内，向客户端发出请求启动master

- 6)Appmaster向resourcemanager请求maptask的资

- 7）resourcemanager分配资源，从hdfs下载jar到container中，master启动maptask，通过心跳机制，检查job.split

- 8）maptask执行完成，通知Appmaster，释放maptask资源。

## 分片机制

::如何确定需要运行多少task（并行度）::

![](MAPREDUCE/%E5%B1%8F%E5%B9%95%E5%BF%AB%E7%85%A7%202018-09-20%20%E4%B8%8A%E5%8D%882.30.10.png)

- 决定需要多大的并行度

- map阶段并行度：客户端首先查看一下待处理数据目录下的数据量

/data/a.txt 1G

/data/b.txt 800M

-循环遍历：对每个文件看文件有多少个block，将block数量累加到计数器

- 返回一任务规划描述文件：job.split：

- [ ] split0: /data/a.txt 0-128M

- [ ] split1: /data/a.txtx 128-256M

…..

- [ ] split8: /data/b.txt 0-128M

写入HDFS中

- 分片和分块不同：

- 分片是逻辑概念，给task一个数据处理的范围

- 存在冗余（10%），偏移量和数据大小

- 特性：移动计算（jar包中封装的计算）而不是移动数据

编写MR程序的步骤：

1、用户编写程序分为三个部分：Mapper、Reducer、Driver

2、Mapper的输入数据是kv对的形式（数据类型可自定义）

3、Mapper的输出数据是kv对的形式（数据类型可自定义）

4、Mapper中的业务逻辑写在map（）方法中

5、Map（）方法对每一对kv值调用一次

6、Reducer的输入数据是kv对的形式（数据类型可自定义）

7、Reducer的输出数据是kv对的形式（数据类型可自定义）

8、Reducer中的业务逻辑写在reduce（）方法中

9、ReduceTask进程对每一组相同的key的<k,v>调用一次reduce（）方法

10、用户自定义的Mapper、Reducer类都要继承各自的父类

11、整个程序需要一个Driver来进行提交，提交是一个描述了各种必要信息的job对象

- 案例：wordcount

- 需求：有一批数据文件（TB或者PB级别的数据），如何统计这些文件中的单词出现次数

好程序员大数据培训官网：http://www.goodprogrammer.org/

网友评论

好程序员大数据

本文标题：好程序员大数据培训分享MAPREDUCE

本文链接：https://www.haomeiwen.com/subject/jdensctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

好程序员大数据培训分享MAPREDUCE

相关文章