受干扰学生的另一个作品

作者: Valar_Morghulis | 来源:发表于2020-10-29 17:46 被阅读0次

UDA：无监督数据增扩用于一致性训练

https://arxiv.org/abs/1904.12848v5

摘要：半监督学习在标记数据不足的情况下，在改进深度学习模型方面显示出了很大的希望。目前常用的方法是对大量未标记数据进行一致性训练(consistency training)，迫使模型在输入有噪声的时候输出是不变的。本文提出一个新观点，即如何有效地给未标记样本加噪声，并指出，噪声的质量，尤其是先进的数据增扩方法产生的噪声的质量，在半监督学习中起着至关重要的作用。通过使用RandAugment和回译等先进的数据增扩方法代替简单的加噪声方法，我们的方法在相同的一致性训练框架下，对6种语言任务和3种视觉任务都有很大的改进。在IMDb文本分类数据集上，只有20个标注样本，我们方法的错误率为4.20，优于在25000个标注样本上训练的最先进模型。在标准的半监督学习基准CIFAR-10上，我们的方法只使用250个样本取得5.43的错误率，超越了之前所有的方法。我们的方法还能很好地和迁移学习结合，例如对BERT微调。我们的方法还能在大规模数据集的情况下带来进一步改进，无论是使用10%的标签数据还是使用全部的标签数据，使用1.3M的额外的无标签数据都带来进一步提升。

1.引言

深度学习的一个根本痛点是需要大量的带标签数据才能正常工作。半监督学习(SSL)是利用无标签数据以解决该问题的有力方法之一。最近的半监督方法有很多不同的类别，但基于一致性的方法在很多基准上表现良好。

概括地说，一致性训练只是简单地迫使模型在输入添加噪声或者隐藏层添加噪声地时候输出不变。这类方法从直观认识上是说得通的，因为好的模型应该对输入和隐藏层的微小变化鲁棒。在这个大框架下，不同方法的区别主要是在哪儿加噪声以及加什么样的噪声，例如高斯噪声，对抗噪声和dropout噪声。

在这项工作中，我们研究了一致性训练中加噪声扮演的角色，并观察到先进的数据增强方法，尤其是在监督学习中有效的数据增强方法，在半监督学习中也表现良好。监督学习中数据增强的表现和半监督学习中数据增强的表现有很强的关联。因此，我们建议用高质量的数据增强方法来代替传统的加噪声方法，以改进一致性训练。我们将我们的方法命名为无监督数据增强或UDA。

我们在各种视觉与语言任务上评估UDA。在6个文本分类任务中，我们的方法比现有模型有显著的提升。值得注意的是，在IMDb上，UDA只使用20个标签样本就比之前的最先进模型表现得更好，而之前的最先进模型使用了1250倍的标签样本。在标准的半监督学习基准CIFAR-10和SVHN上，UDA使用250个样本标签，错误率分别为5.43和2.72，优于现有的所有半监督学习方法。最后，我们发现，当有大量的标签数据时，UDA也能带来进一步地提升。例如，在ImageNet上，当我们使用10%的标签数据和1.3M的额外数据时，top-1准确率从58.84%提升至68.78%，当使用全部的标签数据和1.3M的额外数据时，top-1准确度从78.43%提升至79.05%。

我们的主要贡献和发现总结如下：

——我们展示了，监督学习中最先进的数据增强方法在半监督学习的一致性训练框架下可以作为优秀的噪声源。结果见表1和表2。

——我们证明了，UDA可以匹敌甚至超越使用大好几个数量级的标签数据的监督学习。结果见表3和表4。视觉和语言的最先进结果见表3和表4。在不同训练数据规模下的UDA效果在表3和表6中凸出显示。

——我们证明UDA可以和迁移学习很好地结合，比如对BERT微调的时候，见表4。而且在标签数据集规模大的时候，也还是能带来提升的，比如用在ImageNet上，见表5。

——最后，在第3节，我们还对UDA如何提升分类性能，以及最先进的数据增强策略是如何起着作用进行了理论分析。（编者注：在之后更新的RandAugment论文里，作者同团队的其他作者称这是个开放的、悬而未决的问题。）

2. 无监督数据增强

本节先阐述我们的任务，然后介绍方法的关键，以及UDA背后的洞见。整篇论文里我们关注的是分类任务，用 $x$ 表示输入， $y^\ast$ 表示真值。我们感兴趣的是学习一个模型 $p_{\theta } (y\vert x)$ ，其中 $\theta$ 表示模型参数。最后，我们使用 $p_{L} (x)$ 表示有标签样本的分布， $p_{U} (x)$ 表示无标签样本的分布， $f^\ast$ 表示我们希望习得的最佳分类器。