论文题目:MLPerfTM HPC: A Holistic Benchmark Suite for Scientific Machine Learning on HPC Systems
文章时间:2021年10月26日
会议/期刊:arxiv 2021
作者背景: 美国的超算中心们,谷歌,微软,日本超算中心,瑞士
笔记时间:2021年11月1日周一
论文地址:https://arxiv.org/abs/2110.11466
超算系统上的ML的benchmark。
Abstract
科学计算领域也开始用ML/DL来加速计算。HPC系统有着丰富的硬件资源和大规模的扩展能力,推进着性能的极限。代表真实世界科学应用的ML benchmark是非常重要的。MLPerf是一个由社区驱动的ml workload 的benchmark,聚焦于端到端的性能度量。在本文中,我们介绍了MLPerf HPC,是大规模科学ML训练的应用的benchmark suite。我们展现了在世界最大规模的超算系统上运行的结果。我们开发了一套框架,就数据staging,算法收敛性,计算性能等方法,用于比较分析结果。作为结果,我们获得了对子系统量化的优化理解,比如staging和节点的数据负载,计算单元的利用率,规模扩展时的通信调度性能提升。值得注意的是,我们的分析显示出了与规模相关的内在联系,在数据大小,系统内存结构,训练收敛性强调了靠近计算存储的重要性。为了克服数据并行在大batch的可扩展问题,我们讨论特定的学习计算,和混合数据模型并行,在大系统上是有效的。我们用低层级内存,IO,网络行为来刻画每一个benchmatk,参数化将来的扩展屋顶性能模型。
cosmoflow ,deepcam
一个宇宙学,一个气象学
第五章 workload 特征
本章节中,我们展示了内存网络io性能特征的度量技术。这是来自于扩展的roofline模型的参数,用来刻画未来MLPerfHPC提交的特征,关于系统capability和剩余的软件硬件优化空间。这些数据由高层次的日志来不足。这些度量来自于2个epoch的纯数据并行的运行数据。
5.1 内存带宽
想要阅读的相关文献
网友评论