R-Drop: Regularized Dropout for Neural Networks
Jun 2021
https://arxiv.org/abs/2106.14448
NeurIPS 2021
https://github.com/dropreg/R-Drop
Dropout是一种强大且广泛使用的技术,用于正则深度神经网络的训练。在本文中,我们在模型训练中引入了一种简单的基于Dropout的正则化策略,即R-Drop,它迫使由Dropout生成的不同子模型的输出分布彼此一致。具体地说,对于每个训练样本,R-Drop最小化了由Dropout采样的两个子模型的输出分布之间的双向KL偏差。理论分析表明,R-Drop减少了模型参数的自由度,补充了丢失。在5个广泛使用的深度学习任务(共18个数据集)上的实验表明,R-Drop普遍有效,这些任务包括神经机器翻译、抽象摘要、语言理解、语言建模和图像分类。特别是,当应用于微调大型预训练模型(如ViT、RoBERTa大型和BART)时,它会产生显著的改进,并通过WMT14英语上的vanilla Transformer模型实现最先进的(SOTA)性能→德语翻译(30.91 BLEU)和WMT14英语→法语翻译(43.95 BLEU),甚至超过了用超大规模数据训练的模型和专家设计的Transformer模型的高级变体。
![](https://img.haomeiwen.com/i13727053/5fcaeb7bb2d184aa.png)
![](https://img.haomeiwen.com/i13727053/4e42186fca5c28d8.png)
网友评论