美文网首页论文阅读
[HPC/MLsys]Characterizing Machin

[HPC/MLsys]Characterizing Machin

作者: sagfugetabf | 来源:发表于2021-10-16 20:09 被阅读0次

    论文题目:Characterizing Machine Learning I/O Workloads on Leadership Scale HPC Systems
    文章时间:2021年11月
    会议/期刊:IEEE MASCOTS 2021 CCF C
    作者背景: 超算中心 Oak Ridge National
    笔记时间:2021年10月15日周五
    论文地址:https://arnabkrpaul.github.io/publications/mascots21.pdf


    Abstract
    用submit自己的darshan工具,分析HPC系统的IO工具。分析了submit一年内23k的ML作业的io日志。分析了ML任务使用并行文件系统情况和burst buffer问题。

    分析了MPI-IO ,POSIX,STDIO
    如何选出ML的workloads,使用一些keywords来筛选。

    什么是burst buffer
    A 1.6 TB NVMe device is present on each compute node to be used as node-local storage -
    burst buffer (BB)

    文件系统
    250 PB IBM Spectrum Scale (GPFS)

    分析的部分不是很想看,直接去看discussion的部分

    第五章 Discussion

    经验

    1. 对于使用者来说
      ML的workloads生成了大量的小文件的读写,适合使用BB(burst buffer)。但是实际上很少人在用BB
      计算机专业的人用BB比其他专业的人好的多。

    2. 对于存储架构来说
      ML的数量将要指数增长,他们的IO特征和HPC应用是不同的
      如何优化IO而不改动应用代码值得研究
      系统的存储也将要被ML任务占领

    相关文章

      网友评论

        本文标题:[HPC/MLsys]Characterizing Machin

        本文链接:https://www.haomeiwen.com/subject/rfzpoltx.html