112. 【论文理解】Partial FC: Training

作者: 十里江城 | 来源:发表于2020-12-23 12:07 被阅读0次

112. 【论文理解】Partial FC: Training
VAT虚拟对抗训练
定向对抗推荐系统
Bag of Freebies for Training Obj
[Comm/DLT]Taming Unbalanced Trai
BERT：深度双向预训练语言模型
ELECTRA：类似GAN的预训练语言模型
ScratchDet - Train from Scratch
GPT
emnlp2020论文阅读笔记 2021-03-22（未允禁转）

之前的方法主要基于softmax损失函数的改进，但训练大量人脸比较困难。
softmax损失中的负类在人脸表示中的重要性并不如想象中重要，文中为了softmax-based损失函数只随机采样了10%的类别，比全量训练精度并没有下降。
同时使用了高效分布式采样算法，同时考虑到模型精度与训练效率。
8张显卡完成1千万人的分类任务。

介绍

人脸识别学习过程中，单人的特征被映射到嵌入空间，基于欧几里得距离，属于同一个人的特征被拉到一起、属于不同人的被推开。
黄金法则就是，人越多，模型学习到的信息越多，区分这些特征的能力越强。
softmax及其变体用于人脸识别的目标函数，一般是在嵌入特征与线性变换矩阵的相乘过程中进行全局的特征到类别的比较。
有方法通过并行减轻GPU压力，很少的通信进行full-class softmax的计算；但人多到如1千万的数量级时，通过特征取类别的计算量（logits）还是不可忽视，分布式GPU的内存节约有瓶颈。GPU多了确可以解决权重矩阵的存储问题，但最后的logits还是给GPU新增负担。

文中提出一种高效人脸识别训练策略，用于超大人脸集。

首先在所有GPU上均匀按序存储softmax线性转换矩阵的不交叠子集。
每个GPU负责计算存储在自身的采样子矩阵和输入特征的点积的和。
每个GPU集结其他GPU的局部和，以近似full-class的softmax损失，通过少量的通信采样到局部和，以近似full-class的softmax。大大减少单块GPU的通信、计算和存储成本，效率提升好几倍。
Glint360K中含有干净的、合并了的现有公开人脸数据集，本文方法只需用10%的类别计算softmax，就与当前最好效果不相上下。

贡献：

softmax近似算法，使用10%类别中心便可以维持准确度
高效分布式训练策略，很容易地用大数量类别来训练分类任务
干净合并后的公开数集，最大最干净的人脸数据集Glint360K，在此数据集训练、用此训练策略的基准模型达到最优效果轻而易举。

方法

详述模型并行，分析其中设备间通信开销、存储代价和内存限制
不降性能的近似方法
分布式近似方法

1）模型并行
划分softmax权重矩阵为k个给不同的GPU，每个GPU集结其他的GPU的特征。
数据并行要传递权重矩阵梯度，但模型并行只要传达局部和，通信代价大小为batchsize*4(float32)。
通信和矩阵操作描述第i个GPU上的模型并行过程，包括前后向传播，大大减小GPU之间的通信。其中类别数C>>N*(k+1)，N为每个GPU上mini-batch的大小。

2）模型并行的内存限制
不管C多大，因为模型并行完全可以解决权重的存储、传达问题，所以加GPU就可以了。
每个GPU存储子矩阵w的内存大小不变：
Mem_w = d*(C/k) *4 bytes
C变大，k也变大，此处C/k不变。
此外预测的logits也存在GPU上，logits = X*w
Mem_logits = N*k*(C/k)*4bytes

因此分类层占据的GPU内存表示为：
Men_FC = 3*Mem_w + 2*Mem_logits

如果每个GPU上mini-batch的大小为64且嵌入特征维度为512，则1百万分类任务需8个GPU，1千万则需至少80个，logits会花费w的10倍的内存，则使存储logits成为模型并行的新瓶颈（训练大量人脸并不仅仅增加GPU就可以）。

3）近似策略