美文网首页
R-Drop:神经网络的正则化Dropout

R-Drop:神经网络的正则化Dropout

作者: Valar_Morghulis | 来源:发表于2023-01-12 07:40 被阅读0次

R-Drop: Regularized Dropout for Neural Networks

Jun 2021

https://arxiv.org/abs/2106.14448

NeurIPS 2021

https://github.com/dropreg/R-Drop

Dropout是一种强大且广泛使用的技术,用于正则深度神经网络的训练。在本文中,我们在模型训练中引入了一种简单的基于Dropout的正则化策略,即R-Drop,它迫使由Dropout生成的不同子模型的输出分布彼此一致。具体地说,对于每个训练样本,R-Drop最小化了由Dropout采样的两个子模型的输出分布之间的双向KL偏差。理论分析表明,R-Drop减少了模型参数的自由度,补充了丢失。在5个广泛使用的深度学习任务(共18个数据集)上的实验表明,R-Drop普遍有效,这些任务包括神经机器翻译、抽象摘要、语言理解、语言建模和图像分类。特别是,当应用于微调大型预训练模型(如ViT、RoBERTa大型和BART)时,它会产生显著的改进,并通过WMT14英语上的vanilla Transformer模型实现最先进的(SOTA)性能→德语翻译(30.91 BLEU)和WMT14英语→法语翻译(43.95 BLEU),甚至超过了用超大规模数据训练的模型和专家设计的Transformer模型的高级变体。

相关文章

网友评论

      本文标题:R-Drop:神经网络的正则化Dropout

      本文链接:https://www.haomeiwen.com/subject/odipcdtx.html