美文网首页论文阅读
[HPC/Tool]SCALANA: Automating Sc

[HPC/Tool]SCALANA: Automating Sc

作者: sagfugetabf | 来源:发表于2021-10-09 20:59 被阅读0次

    论文题目:SCALANA: Automating Scaling Loss Detection with Graph Analysis
    文章时间:看github记录应该做了两三年了
    会议/期刊:SC 2020
    作者背景: 清华大学
    笔记时间:2021年10月08日周五/周六
    论文地址: https://dl.acm.org/doi/abs/10.5555/3433701.3433738


    本文是天河二号的相关的项目,目标是找出天河二号集群上,并行程序无法扩大规模的原因。
    对比的工具有scalasca,HPCtoolkit

    他们组也有其他关于程序结构分析的工作,比如Spindle。

    工作思路
    先利用编译器抓取代码的计算和通信结构
    然后利用代码运行时的profiling工具,构建出代码运行时,在不同节点上的运行结构图
    再利用profiling的工具,找出其中有问题的地方,通过不断的迭代回溯,找到问题的根结点。

    定位扩展的性能瓶颈,HPCtoolkit其实已经做的很好了。
    回溯找到瓶颈root的工作也有,改工作是基于tracing数据,本文是基于自己构建的PPG查找。
    计算开销和内存较小。

    相关文章

      网友评论

        本文标题:[HPC/Tool]SCALANA: Automating Sc

        本文链接:https://www.haomeiwen.com/subject/higqoltx.html