YARN的基本思想是将资源管理和作业调度/监视的功能划分为单独的守护进程。我们的想法是拥有一个全局资源管理器(RM)和每个应用程序应用程序管理器(AM)。一个应用程序要么是一个作业,要么是一堆作业。
ResourceManager和NodeManager构成了数据计算框架。ResourceManager是在系统中的所有应用程序之间仲裁资源的最终权威。NodeManager是每台机器的框架代理,负责容器、监视其资源使用(cpu、内存、磁盘、网络)并将其报告给ResourceManager/Scheduler。
每个应用程序的ApplicationMaster实际上是一个特定于框架的库,其任务是从ResourceManager协商资源,并与NodeManager一起执行和监视任务。
ResourceManager有两个主要组件:Scheduler和ApplicationsManager。
调度器负责根据常见的容量、队列等约束,将资源分配给各种正在运行的应用程序。调度器是纯粹的调度器,它不执行应用程序状态的监视或跟踪。此外,它不保证由于应用程序故障或硬件故障而重新启动失败的任务。调度器根据应用程序的资源需求执行其调度功能;它是基于资源容器的抽象概念执行的,该资源容器包含内存、cpu、磁盘、网络等元素。
调度程序有一个可插入的策略,负责在不同的队列、应用程序等之间划分集群资源。当前的调度程序如CapacityScheduler和FairScheduler就是一些插件示例。applicationmanager负责接受作业提交,协商第一个容器以执行特定于应用程序的ApplicationMaster,并提供在失败时重新启动ApplicationMaster容器的服务。每个应用程序的ApplicationMaster负责从调度程序协商适当的资源容器,跟踪其状态并监视进度。
hadoop-2.x中的MapReduce与以前的稳定版本(hadoop-1.x)保持API兼容性。这意味着只要重新编译,所有MapReduce作业仍应在纱的顶部不变地运行。
注:本文基于以下官网链接翻译,如有不当之处欢迎指正。
http://hadoop.apache.org/docs/r2.7.3/hadoop-yarn/hadoop-yarn-site/YARN.html
网友评论