美文网首页
Hadoop生态圈中的调度组件-YARN

Hadoop生态圈中的调度组件-YARN

作者: _duangduang | 来源:发表于2018-02-24 15:44 被阅读0次

    一、YARN:Hadoop集群中的同一资源调度系统。Hadoop2.0后引入,主要功能有:负责集群中资源的统一调度,响应客户端的请求。

    优缺点

    二、YARN核心组件及架构

    1. ResourceManger(RM):全局资源管理器,集群中只有一个活跃的RM,具体功能包括:处理客户端的请求;启动监控ApplicationMaster;监控NodeManger;资源的分配和调度。

    2.ApplicationMaster(AM):每个应用程序(job任务)对应一个AM,负责计算job的资源情况,并向RM申请和任务的调度。具体功能包括:(1)计算job资源使用情况,与RM协商申请job的资源情况;(2)与NodeManger通信启动/停止Container,来执行/终止任务的具体执行;(3)监控任务的运行状态及失败处理。

    3.NodeManager(NM):节点的资源管理器,每个节点启动一个,一般与DataNode一 一对应。具体功能包括:(1)监控和管理当前节点的资源使用情况;(2)通过心跳向RM汇报自身的资源使用情况;(3)处理RM的请求,分配执行AM的Container;(4):处理AM的请求,启动和停止执行任务的Container。

    4.Container:资源的抽象,包括一系列描述信息,任务的运行资源(节点、CPU、内存等),任务运行环境,启动命令等。

    架构图见 yarn-arch

    三、YARN运行流程

    2. RM根据内部调度器,选取一个资源空闲的NM,启动一个Container来运行AM。

    3.AM计算应用程序所需资源,向RM进行资源申请,申请字段包括:

    message ResourceRequestProto {  

    optional PriorityProtopriority = 1; // 资源优先级  

    optional stringresource_name = 2; // 期望资源所在的host  

    optional ResourceProtocapability = 3; // 资源量(mem、cpu)  

    optional int32num_containers = 4; // 满足条件container个数  

    optional boolrelax_locality = 5 ; //default = true;   

    }  

    AM会根据文件的存储地址,分析运行需要的资源等,向RM申请一个期望的资源列表,RM同时考虑各个节点资源使用情况,最终分配一个资源列表。

    4. RM返回资源列表,以cotainer结构

    message ContainerProto {  

    optional ContainerIdProtoid = 1; //container id  

    optional NodeIdProtonodeId = 2; //container(资源)所在节点  

    optional stringnode_http_address = 3;  

    optional ResourceProtoresource = 4; //分配的container数量  

    optional PriorityProtopriority = 5; //container的优先级  

    optional hadoop.common.TokenProtocontainer_token = 6; //container token,用于安全认证  

    }

    5. AM与NM通信,分配Container并执行任务,以 ContainerLaunchContext 结构发出请求。同时监控各个节点的运行情况(定期心跳),如果失败,AM可将该节点的任务调度到其他节点运行。

    一个NN可以启动多个Container。

    ContainerLaunchContext结构:

    message ContainerLaunchContextProto {  

    repeated StringLocalResourceMapProtolocalResources = 1; //该Container运行的程序所需的在资源,例如:jar包  

    optional bytestokens = 2;//Security模式下的SecurityTokens  

    repeated StringBytesMapProtoservice_data = 3;  

    repeated StringStringMapProtoenvironment = 4; //Container启动所需的环境变量  

    repeated stringcommand = 5; //该Container所运行程序的命令,比如运行的为java程序,即$JAVA_HOME/bin/java org.ourclassrepeated ApplicationACLMapProto application_ACLs = 6;//该Container所属的Application的访问控制列表  

    RM负责AM的启动和监控,若异常可重新运行。

    AM负责真个job任务的运行、监控,及失败处理操作。

    四、YARN的调度器

    先进先出FIFO

    Cap 容量调度器

    Fire 公平调度器

    相关文章

      网友评论

          本文标题:Hadoop生态圈中的调度组件-YARN

          本文链接:https://www.haomeiwen.com/subject/yomqxftx.html