前言
yarn是hadoop集群当中的资源管理系统模块,从hadoop2.x开始引入yarn来进行管理集群当中的资源(主要是服务器的各种硬件资源,包括CPU,内存,磁盘,网络IO等)以及运行在yarn上面的各种任务。
总结:yarn主要作用就是调度资源,管理任务等
调度分为两个层级来说:
- 一级调度管理:
计算资源管理(CPU,内存,网络IO,磁盘)
App生命周期管理 (每一个应用执行的情况,都需要汇报给ResourceManager) - 二级调度管理:
App内部的计算模型管理 (AppMaster的任务精细化管理)
多样化的计算模型
yarn的主要组件(角色)
- ResourceManager:yarn集群的主节点,主要用于接收客户端提交的任务,并对任务进行分配。
- NodeManager:yarn集群的从节点,主要用于任务的计算。
- ApplicationMaster:当有新的任务提交到ResourceManager的时候,ResourceManager会在某个从节点NodeManager上面启动一个ApplicationMaster进程,负责这个任务执行的资源的分配,任务的生命周期的监控等。
- Container:资源的分配单位,ApplicationMaster启动之后,与ResourceManager进行通信,向ResourceManager提出资源申请的请求,然后ResourceManager将资源分配给ApplicationMaster,这些资源的表示,就是一个个的container。
- JobHistoryServer:这是yarn提供的一个查看已经完成的任务的历史日志记录的服务,我们可以启动JobHistoryServer来观察已经完成的任务的所有详细日志信息。
- TimeLineServer:hadoop2.4.0以后出现的新特性,主要是为了监控所有运行在yarn平台上面的所有任务(例如MR,Storm,Spark,HBase等等)
yarn当中各个主要组件的作用
- ResourceManager主要作用:
处理客户端请求
启动/监控ApplicationMaster
监控NodeManager
资源分配与调度 - NodeManager主要作用:
单个节点上的资源管理和任务管理
接收并处理来自ResourceManager的命令
接收并处理来自ApplicationMaster的命令
管理抽象容器Container
定时向ResourceManager汇报本节点资源使用情况和各个Container的运行状态 - ApplicationMaster主要作用:
数据切分
为应用程序申请资源
任务监控与容错
负责协调来自ResourceManager的资源,开通NodeManager监视容器的执行和资源使用(CPU,内存等的资源分配) - Container主要作用:
对任务运行环境的抽象
任务运行资源(节点,内存,cpu)
任务启动命令
任务运行环境
yarn当中的调度器
yarn主要是用于做资源调度,任务分配。hadoop支持好几种任务的调度方式,不同的场景需要使用不同的任务调度器。
- FIFO Scheduler (队列调度器)
资源分配的时候,先给队列中最头上的应用进行分配资源,待最头上的应用需求满足后再给下一个分配,以此类推。
FIFO Scheduler不适用于共享集群。大的应用可能会占用所有集群资源,这就导致其它应用被阻塞。在共享集群中,更适合采用Capacity Scheduler或Fair Scheduler,这两个调度器都允许大任务和小任务在提交的同时获得一定的系统资源。 - Capacity scheduler(容量调度器)
Apache版本默认使用的调度器,允许多个组织共享整个集群,每个组织可以获得集群的一部分计算能力。通过为每个组织分配专门的队列,然后再为每个队列分配一定的集群资源,这样整个集群就可以通过设置多个队列的方式给多个组织提供服务了。除此之外,队列内部又可以垂直划分,这样一个组织内部的多个成员就可以共享这个队列资源了,在一个队列内部,资源的调度是采用的是先进先出(FIFO)策略。 - Fair Scheduler(公平调度器)
CDH版本的hadoop默认使用的调度器,Fair调度器的设计目标是为所有的应用分配公平的资源(对公平的定义可以通过参数来设置)。
使用哪种调度器取决于yarn-site.xml
当中的
yarn.resourcemanager.scheduler.class
这个属性的配置。
网友评论