训练分级方案

作者: 王勇1024 | 来源:发表于2019-08-23 10:31 被阅读0次

背景

从下面两张图中可以看到,有大量实验资源利用率不足50%(当前为23个,2019.08.21数据,占比约42.5%),这些训练大多都独占一台机器,造成了巨大的资源浪费,致使当前集群资源利用率只有52.5%。

CPU使用率 内存使用率

目标

提升资源利用率到70%,节约30台物理机(配置:cpu32C,mem128G,ssd512G,万兆网卡,¥32000/台)。

方案

1.实验等级划分

按照所占用CPU核数对实验划分为6个等级(数值越大,等级越高):

  1. 0~5核
  2. 5~9核
  3. 10~14核
  4. 15~19核
  5. 20~24核
  6. 25核以上

2.等级推荐策略

监控各训练Docker容器负载情况,根据前24小时的数据给出推荐等级。

实验初次启动时,用户可以自行设定实验等级。

3.升级和降级

设定推荐等级为rlevel

升级:用户可以设定实验等级为 <=rlevel+1,如果用户想提升实验等级 >rlevel+1,必须由分组负责人审批,并说明原因。
每次重启实验时,如果设定等级 >rlevel+1,都需要负责人审批。

降级:当前集群中剩余机器不能满足训练等级要求时,用户可以选择主动降低实验等级,并增加实例数量,来启动实验。
下次重启实验时,用户可以恢复实验等级。

4.单独运行Merge

资源使用率

从上图可以看到,当训练进行Merge(模型合并)时,资源占用率会明显上升,此时训练出错的风险较高。如果将Merge单独运行,则可以明显降低出错风险,并保证资源占用率的平缓和稳定。所以,需要将所有训练的Merge单独运行和调度。

相关文章

  • 训练分级方案

    背景 从下面两张图中可以看到,有大量实验资源利用率不足50%(当前为23个,2019.08.21数据,占比约42....

  • 2018-06-27-关于如何使用opencv训练目标级联分级器

    opencv训练分级器的简介: OpenCV提供了两个程序可以训练自己的级联分类器opencv_haartrain...

  • 美柚用户运营体系

    背景 目的 方案 一、用户模型 1.1定义标准及维度 1.1.1基础属性 1.1.2用户分级 1.1.3用户行为 ...

  • 干货 | 如何像英语国家的孩子一样自然习得英文?

    分级阅读,即根据孩子阅读力水平做分阶段阅读训练,从而达到逐步提高儿童的阅读能力的目的。 分级阅读已有上百年的历史,...

  • 四步构建异地多活

    第一步:业务分级 按照一定的标准将业务进行分级,挑选出核心的业务,只为核心业务设计异地多活,降低方案整体复杂度和实...

  • 职场生存的第一原则

    1. 职场生存的第一原则:分级分类。 2. 分级分类是国外电影审查的思想,本质是任何事情都没有一个简单的解决方案,...

  • 什么是基金定折?

    基金定制一般发生在分级基金当中?分级基金一般分为分级母基金,分级A基金和分级B基金。 分级A基金有个约定的利率,一...

  • 长沙拓展训练方案

    长沙拓展训练方案决定着拓展训练的效果。只有好的拓展方案才能够更好的提升培训效果。长沙拓展训练的机构有不少,但是真正...

  • 2019-3-11 #学习# 决策的框架

    目标是什么,砍消息 考虑要素:用户利益、商业利益 金额、质量、数量、权重等,分级赋权 制定方案: A B C 根据...

  • 方案训练

    昨天是端午节,写了一个小短文: 节日期间如何连接人脉?你掌握这个技巧下半年业绩至少翻一番! 我们平时都在与人打交道...

网友评论

    本文标题:训练分级方案

    本文链接:https://www.haomeiwen.com/subject/ghrzsctx.html