Hadoop基础

作者: 露亦子 | 来源:发表于2016-12-04 21:52 被阅读0次

Hadoop：1、Hadoop基础与编译
大数据学习路线
Hadoop 2.*源码编译
成都0基础学习hadoop怎么学？怎么进行大数据入门学习
hadoop环境搭建
大数据基础之Hadoop和Spark
2.Hadoop伪分布式环境搭建和基本概念
Hadoop集群环境搭建
Hadoop安装
Hadoop集群环境搭建

Hadoop基础

Hadoop是一个开发和运行处理大规模数据的软件平台,是Appach的一个用java语言实现开源软件框架，实现在大量计算机组成的集群中对海量数据进行分布式计算。

Hadoop框架中最核心设计就是：HDFS和MapReduce.HDFS提供了海量数据的存储,MapReduce提供了对数据的计算。

HDFS:Hadoop Distributed File System,Hadoop的分布式文件系统。大文件被分成默认64M一块的数据块分布存储在集群机器中。

MapReduce:Hadoop为每一个input split创建一个task调用Map计算，在此task中依次处理此split中的一个个记录(record),map会将结果以key--value的形式输出,hadoop负责按key值将map的输出整理后作为Reduce的输入,Reduce Task的输出为整个job的输出，保存在HDFS上.

Hadoop的集群主要由 NameNode,DataNode,Secondary NameNode,JobTracker,TaskTracker组成.

NameNode中记录了文件是如何被拆分成block以及这些block都存储到了那些DateNode节点.

NameNode同时保存了文件系统运行的状态信息.

DataNode中存储的是被拆分的blocks.

Secondary NameNode帮助NameNode收集文件系统运行的状态信息.

JobTracker当有任务提交到Hadoop集群的时候负责Job的运行,负责调度多个TaskTracker.

TaskTracker负责某一个map或者reduce任务.

HDFS

HDFS 采用Master/Slave的架构来存储数据，这种架构主要由四个部分组成，分别为HDFS Client、NameNode、DataNode和Secondary NameNode。

Client：即客户端。

1、文件切分。文件上传 HDFS 的时候，Client 将文件切分成一个一个的Block，然后进行存储。

2、与 NameNode 交互，获取文件的位置信息。

3、与 DataNode 交互，读取或者写入数据。

4、Client 提供一些命令来管理 HDFS，比如启动或者关闭HDFS。

5、Client 可以通过一些命令来访问 HDFS。

NameNode：就是 master，它是一个主管、管理者。

1、管理 HDFS 的名称空间。

2、管理数据块（Block）映射信息

3、配置副本策略

4、处理客户端读写请求。

DataNode：就是Slave。NameNode 下达命令，DataNode 执行实际的操作。

1、存储实际的数据块。

2、执行数据块的读/写操作。

Secondary NameNode：并非 NameNode 的热备。当NameNode 挂掉的时候，它并不能马上替换 NameNode 并提供服务。

1、辅助 NameNode，分担其工作量。

2、定期合并 fsimage和fsedits，并推送给NameNode。

3、在紧急情况下，可辅助恢复 NameNode。

MapReduce作业运行流程

流程示意图：

1. 作业运行过程：首先向JobTracker请求一个新的作业ID；然后检查输出说明（如输出目录已存在）、输出划分（如输入路径不存在）；JobTracker配置好所有需要的资源，然后把作业放入到一个内部的队列中，并对其进行初始化，初始化包括创建一个代表该正在运行的作业对象（封装任务和记录信息），以便跟踪任务的状态和进程；作业调度器获取分片信息，每个分片创建一个map任务。TaskTracker会执行一个简单的循环定期发送heartbeat给JobTracker，心跳间隔可自由设置，通过心跳JobTracker可以监控TaskTracker是否存活，同时也能获得TaskTracker处理的状态和问题，同时也能计算出整个Job的状态和进度。当JobTracker获得了最后一个完成指定任务的TaskTracker操作成功的通知时候，JobTracker会把整个Job状态置为成功，然后当客户端查询Job运行状态时候（注意：这个是异步操作），客户端会查到Job完成的通知的。

2. 逻辑角度分析作业运行顺序：输入分片(input split)、map阶段、combiner阶段、shuffle阶段、reduce阶段。

input split：在map计算之前，程序会根据输入文件计算split，每个input split针对一个map任务。input split存储的并非是数据本身，而是一个分片长度和一个记录数据的位置的数组。

map阶段：即执行map函数。

combiner阶段：这是一个可选择的函数，实质上是一种reduce操作。combiner是map的后续操作，主要是在map计算出中间文件前做一个简单的合并重复key值的操作。

shuffle阶段：指从map输出开始，包括系统执行排序即传送map输出到reduce作为输入的过程。另外针对map输出的key进行排序又叫sort阶段。map端shuffle，简单来说就是利用combiner对数据进行预排序，利用内存缓冲区来完成。reduce端的shuffle包括复制数据和归并数据，最终产生一个reduce输入文件。shuffle过程有许多可调优的参数来提高MapReduce的性能，其总原则就是给shuffle过程尽量多的内存空间。

reduce阶段：即执行reduce函数并存到hdfs文件系统中。

3. 作业调度器：目前hadoop的作业调度器主要有三种：

先进先出调度器：优点，算法简单，JobTracker工作负担轻；缺点忽略不同作业的需求差异。

容量调度器

公平调度器

MapReduce容错

hadoop的好处之一就是能处理输入进程崩溃、机器故障、代码错误等问题并能成功运行完成任务。

参考资料：http://note.youdao.com/share/?id=f8ba788138259ea5d048a9317f91e032&type=note#/