深度模型常见加速训练策略架构篇(一)---分布式训练介绍

深度模型常见加速训练策略架构篇(一)---分布式训练介绍

作者: 加油11dd23 | 来源:发表于2021-03-06 15:03 被阅读0次

机器学习系统之加速技术目录
深度模型常见加速训练策略架构篇(一)---分布式训练介绍
深度学习分布式训练(下)-原理篇
用GPU进行TensorFlow计算加速
预训练模型----持续更新
PyTorch模型量化- layer-wise Quantize
推荐系统遇上深度学习(九十四)-[华为]一种实用的增量式深度CT
工程Trick | 合并BN层加速前向推理
2019-08-24极市 x Intel 活动笔记
深度学习分布式训练实战（二）——TF

一、当前模型训练速度的瓶颈

（一）、当前模型训练步骤

读取Mini batch，前向传播计算loss
loss反向传播得到各个参数的梯度
根据算出的梯度，选用特性的优化器更新参数

（二）、当前模型训练模式分类

单机单卡
单机多卡
多级多卡

（三）、采用分布式系统训练中涉及到的通信方式分类

点对点通信(只有一个发送者和接收者)
集合通信(有多个发送者和接收者)

（四）、分布式系统中基于集合通信的常用操作

boradcast，将参数从一个node发到多个node上
reduce，将参数从多个node收集到一个node上，同时对手机到的参数进行归并（求和求积）

（五）、大规模训练的技术挑战(研究点/优化点)

1. 显存墙(决定能否训练)

（1）介绍

Model states、
模型参数
Avtivations
用于 autograd 的中间变量。如 Forward Output、Output Gradient 以及 cuDNN Workspace。

（2）优化方式

2. 通信墙(决定训练速度)

（1）介绍

在进行分布式训练时对神经网络进行了各种各样的切分，但是神经网络的训练任务仍是一个整体，因而，切分需要通信来进行聚合。

聚合所产生的通信需求隐含了不少问题，首先，深度学习迭代式训练的特性导致更新频繁，需要大量的交换局部更新。但是目前网络的传输速率远远不能匹配 GPU 或 TPU 这种专用加速芯片的运算速率。

能否增大带宽
不行。增大带宽，带宽利用率会降低。因为网络协议栈会占用带宽

3.计算墙(决定训练速度)

（1）介绍

顾名思义，前向传播和反向传播的计算以及参数更新的计算瓶颈。

opeator-level算子级别的优化

小算子过多
Kernel实现不够高效
内存局部性差

Graph-level计算图级别的优化

如何搜索出计算效率更高的计算图
如何用计算编译技术解决小算子问题
如何进行通信和计算的 overlap 等

Task-level训练阶段的系统设计

与传统训练不同，在包含大规模训练技术的训练系统设计时，不仅要考虑到庞大的节点数，也要考虑到在解决显存、通信问题时带来的系统层面的变化。因此，Task-level 的关键挑战在于，如何给出一个最终计算效率最高的系统设计

采用何种分布式训练架构，才能使得大规模训练具备良好的拓展性。在节点数很多时仍能保持较好的加速比（scale factor）
如何 balance 显存优化与速度优化

二、如何从系统框架层面上对训练加速---并行

（一）分类

数据并行(解决计算墙)
1.不同 node 输入不同数据，运行相同的完整的模型。
2.通过修改 Sampler 切分输入，每张卡只需要处理一部分数据
模型并行(解决显存墙)
1.不同 node 输入相同数据，运行模型的不同部分
2.通过修改层内的计算方式，将单层的计算负载和显存负载切分到多张卡上
流水并行(解决显存墙)
将不同的层放到不同的卡上，进而将计算负载和显存负载切分至多张卡上

一旦使用分布式并行计算，就会涉及到数据通信的问题，因此还需要对通信进行加速(解决通信墙)

一般来说，模型并行比数据并行的通信量更少。但是模型并行需要自己地将模型的计算进行分解。因此一般使用数据并行加速。

（二）数据并行

1. Parameter Server模式(tensorflow)

（1）结构介绍

类似于master-slave 的同步模式：

image.png

将 node 分成两种角色：

parameter server(ps) 负责维护一份最新的参数，
worker 负责利用从 ps 读到的最新参数计算出梯度(forward 和 backprop)，并对 ps 发送梯度和参数更新请求。

（2）优化方式介绍

优化方式分为两类：同步更新(synchronous update)和异步更新(asynchronous update)。

同步更新

ps 会同时充当 reducer 的角色，等待所有 worker 都发来梯度和参数更新请求后，ps 会对梯度取平均(reduce mean)，并用平均过后的梯度更新一次参数。各个 worker 在从 ps 读取最新参数的过程中，以及等待 ps 更新参数的过程中，都是处于空闲状态。

优点：收敛好(相比于异步更新而言)
缺点：慢

异步更新

与同步更新不同，异步更新中 ps 在收到 worker 的梯度以及更新请求的时候，会立即对参数发起更新，而不等待其他 worker。在完成梯度的计算后，worker 会立刻从 ps 上读取参数，进行下一步的迭代。

异步更新的一些问题及解决方案
(i) 参数和更新用的梯度并不来自同一个迭代。用来更新的梯度可能是几步更新前的参数算出来的。
解决：直接丢掉落后于当前迭代的梯度。(造成了不同 worker racing 的情况，对计算资源和数据的利用效率不高。)
(ii)参数的读取并没有加锁。这导致 worker 可能会读到更新一半的参数。
直接丢掉落后于当前迭代的梯度。

（3）PS方式优缺点

优点：容错能力强(设置多个PS)
缺点：PS传输带宽制约训练速度
目前，因为机器计算能力增强，需要地机器数越来越少，所以机器故障率贬低，因此不需要容错能力，反而需要加快训练速度。

2. All Reduce模式

image.png

（1）介绍

在 Allreduce 模式中，所有 node 同时充当 ps 和 worker 的角色。

每个 node 可以直接利用本地的参数拷贝θi进行 forward 和 backprop 的计算
所有 node 都得到算出梯度后，执行 allreduce 操作，各个 node 都会得到全部 node 的梯度平均.
最后各个 node 利用拿到的梯度平均对本地的θi 进行一次更新。
给个epoch内，各个 node 需要发送和接受一份梯度。

（2）优缺点

优点
传输耗时在一定规模内基本不随 node 数目的增加而变化
同步更新，收敛好，可采用大学习率
缺点
当系统中存在异构的 worker 的时候，更新仍然会被最慢的 worker 阻塞住

3.主流方案 ring-allreduce

(1).介绍

架构拓扑结构
假设各个 node 以一个环排列，这种假设可以适用于很多种拓扑结构，有其工程实现上的方便性。

image.png
主要算法内容

image.png
image.png

(三)、附录

梯度平均的实现细节

image.png

Reference:

https://zhuanlan.zhihu.com/p/350707888
https://zhuanlan.zhihu.com/p/50116885

相关文章

机器学习系统之加速技术目录
内容好多，一点一点更把..... 一、数据深度模型常见加速训练策略数据篇(一)---load内存深度模型常见加...
深度模型常见加速训练策略架构篇(一)---分布式训练介绍
一、当前模型训练速度的瓶颈（一）、当前模型训练步骤读取Mini batch，前向传播计算loss loss反向...
深度学习分布式训练(下)-原理篇
接上篇深度学习分布式训练(上)-Pytorch实现篇分布式训练前面讲了在深度学习中随着数据量和模型的复杂度增...
用GPU进行TensorFlow计算加速
将深度学习应用到实际问题中，一个非常大的问题在于训练深度学习模型需要的计算量太大。为了加速训练过程，本文将介绍如何...
预训练模型----持续更新
预训练模型由来预训练模型是深度学习架构，已经过训练以执行大量数据上的特定任务（例如，识别图片中的分类问题）。这种...
PyTorch模型量化- layer-wise Quantize
Motivation 深度学习模型为什么要量化模型量化是深度学习Inference加速的关键技术之一，一般训练之...
推荐系统遇上深度学习(九十四)-[华为]一种实用的增量式深度CT
今天给大家介绍一篇有关深度CTR模型增量训练的文章，来自华为诺亚方舟实验室。 1、背景深度CTR模型需要大量的数...
工程Trick | 合并BN层加速前向推理
1.BatchNorm 在训练深度网络模型时，BN（Batch Normalization）层能够加速网络收敛，并...
2019-08-24极市 x Intel 活动笔记
OpenVINO 加速深度学习&传统视觉深度学习打包了30多个预训练模型传统视觉打包了优化过的OpenCV、...
深度学习分布式训练实战（二）——TF
本篇博客主要介绍TF的分布式训练，重点从代码层面进行讲解。理论部分可以参考深度学习分布式训练实战（一) TF的分布...

网友评论

本文标题：深度模型常见加速训练策略架构篇(一)---分布式训练介绍

本文链接：https://www.haomeiwen.com/subject/ugajqltx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

关于我们|服务条款|联系我们|深度模型常见加速训练策略架构篇(一)---分布式训练介绍|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！