Google研究人员最近发表了一篇描述框架SEED RL 的论文,该框架将AI模型训练扩展到数千台机器。他们说,这可以促进在一台机器上以每秒数百万帧的速度进行训练,同时将成本降低多达80%,这有可能为以前无法与大型AI实验室竞争的初创公司提供公平的竞争环境。
在云中训练复杂的机器学习模型仍然非常昂贵。根据最近的一份Synced报告,华盛顿大学的Grover专为生成和检测假新闻而设计,在两周的培训中花费了25,000美元。OpenAI每小时花费256美元来训练其GPT-2语言模型,Google估计花费了6,912美元来训练BERT,这是一种双向转换器模型,可重新定义11种自然语言处理任务的最新状态。
SEED RL基于Google的TensorFlow 2.0框架,其特征是通过集中模型推断来利用图形卡和张量处理单元(TPU)的架构。为了避免数据传输瓶颈,它使用学习器组件集中执行AI推理,该学习器组件使用来自分布式推理的输入来训练模型。目标模型的变量和状态信息保持本地状态,而观察结果则在每个环境步骤都发送给学习者,并且由于基于开源通用RPC框架的网络库,将延迟保持在最低水平。
SEED RL的学习者组件可以扩展到数千个核心(例如,在Cloud TPU上多达2,048个),并且参与者数量(可以在环境中采取的步骤与对模型进行推断以预测下一步行动之间进行迭代)可以扩展多达数千台机器。一种算法-V-trace-预测可从中采样动作的动作分布,而另一种算法-R2D2-根据该动作的预测未来值选择一个动作。
为了评估SEED RL,研究团队在常用的Arcade学习环境,几种DeepMind Lab环境以及Google Research Football环境中进行了基准测试。他们说,他们设法解决了以前尚未解决的Google Research Football任务,并且使用64个Cloud TPU内核实现了每秒240万帧的帧数,这比以前的最新分布式代理提高了80倍。
该论文的共同作者说:“这大大缩短了挂钟时间,并且由于加速器每次操作比CPU便宜几个数量级,因此实验的成本大大降低了,”。“我们相信SEED RL及其呈现的结果表明,在利用加速器方面,强化学习再次赶上了其他深度学习领域。”
网友评论