美文网首页论文阅读
[DL/Survey]Communication optimiz

[DL/Survey]Communication optimiz

作者: sagfugetabf | 来源:发表于2021-10-19 18:56 被阅读0次

论文题目:Communication optimization strategies for distributed deep neural network training: A survey
文章时间:2020年3月
会议/期刊: 期刊 JPDC
作者背景: 国防科技大学
笔记时间:2021年10月17日周日,19号周二
论文地址:https://www.sciencedirect.com/science/article/pii/S0743731520304068


深度学习神经网络训练过程中的通信优化策略,综述
本文主要分两大部分,一个算法层面的优化,一个是网络层面的优化。
算法层面主要是,减少迭代论数;梯度压缩;overlap
网络层面主要是,网络架构,消息库,网络协议

觉得写的还算清晰

第五章 结论

通讯开销在分布式DNN训练中阻碍了性能。本文对最近的通讯优化进行了综述,包括理论和实验的研究。我们把他们分为2个纬度,算法维度和网络维度。算法角度,我们聚焦于减少通讯量和计算通讯的overlap。网络角度,聚焦于不同的拓扑和网络协议的影响。我们也指出了潜在的研究方向和挑战。
1, 聚焦于不同的任务和模型。
现在的工作聚焦于CV,在NLP和推荐系统的模型还没有很多的工作

2, Local SGD for nonconvex problems
周期性通信对一些非凸问题有机会。

3, 模型准确率和压缩率的权衡
研究如何反馈错误

4, 更高的通信计算overlap
为了更高的通信和计算的overlap,需要重新排序通信和计算,并且减少通讯的时间。更好的优化算法,比如动态编程可能适合解决这个问题

5, 大规模的DNN训练在不同的数据中心拓扑
Wangetal.[113]的工作表明在BCube拓扑上比在FatTree的效果好

6, 测量通讯开销的工具开发
一个重要的研究是性能模型和通讯开销工具。性能模型可以帮助我们分析分布式训练的代价,测量工具帮助我们理解通信行为并找到训练瓶颈。现有的工具没法分析网络行为。Advanced tools for network analysis such as Horovod timeline [100] and SketchDLC [120] are still required

想看的文献
不同网络上的性能差异,113,
性能建模90,123,
网络工具100,120

相关文章

网友评论

    本文标题:[DL/Survey]Communication optimiz

    本文链接:https://www.haomeiwen.com/subject/ilfvoltx.html