最近发现data augmentation已经有了一些理论工作,早一点的有ICML上的kernel theory。而今天要解读的是使用群理论进行分析的一篇文章。
摘要
数据增强在训练神经网络时被广泛使用:在训练集中除了原始数据还有被适度转换的数据。然而,据我们所知,用来解释数据增强的数学框架还没有出现。
在本文中,我们提出了这样一个理论框架。表明数据增强等价于一个在特定群的轨道上的平均算子,能够保持数据分布近似不变。我们证明这会带来方差减少。我们通过实验研究了风险的最小值,指数族的例子,线性回归和特定的两层神经网络。我们还讨论了数据增强如何用到其它方法也存在的对称性问题中,例如冷冻电子显微镜(cryo-electron microscopy, cryo-EM)。
简介
深度学习算法,如卷积神经网络成功的部分原因是他们捕获到了数据中的自然对称性。举个例子,图像的内容对于旋转和变换几乎是不变的:对猫的一丢丢平移仍然还是猫。这样的不变性在许多数据集中都存在,包括图像,文本和语音数据。标准结构对一些来说是不变的,但是不是所有的变换。举个例子,CNNs具有大致的平移等价不变性,但是对旋转没有。这是CNNs的内在偏好,这个想法可以回溯到neocognitron(Fukushima, 1980)。
为了使得模型对任意变换都具有不变性,数据增强经常被使用。粗略来说,这个模型不光使用原始数据训练,还使用变换后的数据来训练。数据增强是现代深度学习方法中非常重要的一部分,这常常达到最佳表现。在AlexNet和其它开创性工作已被使用。在最新最好的结果上常常离不开好的数据增强,sota。在图1做了小实验,代码见github。
然而,用来理解数据增强的一般框架还没有。这样的框架能让我们弄清楚和不变特征比起来数据增强的好处。进一步,这样的框架能够阐明诸如此类的问题:我们如何通过简单的变换数据来提升模型的表现?在什么条件下我们可以得到好处?发展这样一个框架由于这几个原因,它是具有挑战的:首先,使用什么样的数学方法尚不清楚,其次,如何揭示数据增强的“帮助”。
在本文中,我们提出了这样一个一般的框架。我们使用群理论作为数学语言,模型的不变性作为在群作用下的分布“近似相等”。我们表明数据增强能被视为在群作用平均下的不变量学习。我们之后揭示数据增强会带来样本有效学习,在非渐进设置(依赖于随机凸优化和Rademacher复杂度),以及在渐进设置(使用对称统计理论来计算经验风险最小值/M-estimators)。
我们演示了了如何在深度学习之外使用数据增强,在其它统计和机器学习中也有着不变性。除此之外,我们还将说明与统计和机器学习中其他几个重要概念的联系的联系,包括充分性,不变表示,等方差,蒙特卡洛方法的方差减少和正则化。
我们可以将主要贡献总结如下:
- 我们在群理论形式下研究了数据增强,群作用于数据,在作用下的数据的分布相等(我们称为准确不变性),或者没有改变太多(记为近似不变性)。我们解释在经验风险最小(ERM)下,这会导致最小化增广的损失,即在群作用下的平均原始损失。在特别的例子:最大似然估计中,我们讨论了几个可能会潜在利用不变性的MLE的变量。我们提出拓展数据增强到ERM之外,使用“增强分布”。
- 我们提供了许多关于理论结果用来支持数据增强的好处。当数据在分布中不变时,我们发现群轨道的平均减少了所有函数的方差。我们能很快得到结论,基于“增强分布”的估计器可以提高效率并增强总体估计器的均方误差。
- 专门针对损失的方差减少和损失的梯度,我们显示了具有数据增强的经验风险最小化器在非渐近设置中享有有利的属性。
具体来说,“损失平均”意味着数据增强可以降低损失类别的Rademacher复杂度(见第4.2.1节),这进一步表明,增强模型可以更好地推广。 另一方面,我们使用随机凸优化的最新结果(第4.2.2节)表明,当损失为强凸时,“梯度平均”可减小ERM的方差。 - 转到渐近情况,我们描述了在精确不变性下通过数据增强获得的精确差异减少的特征。 我们表明,这取决于沿着群轨道的损耗梯度的协方差(见第4.2.3节)。 这意味着数据扩充可以改善无增量最大似然估计器(MLE)的Fisher信息(第4.2.4节)。 对于MLE,我们将进一步研究具有不变性的参数子空间是低维流形的特殊情况。 我们将此与几何联系起来,表明梯度在切线空间上的投影始终是不变的。 但是,它并不总是捕获所有不变性。 结果,增强的MLE不能总是像“约束的MLE”那样高效,后者通过约束优化来实现不变性。
- 我们在完全不变的情况下得出了一些理论示例:指数族(第5.1节),最小二乘回归(第5.2节)和最小二乘分类(第5.3节)。 作为一个显着的例子,我们在参数严重不足的情况下(其中大多数结果与二次激活有关)计算了带有循环移位数据增强的两层神经网络的效率增益。
在线性回归与一般线性群作用的情况下,我们还提供了“增量分布”的示例(第5.4节) - 我们将大多数结果扩展到近似不变的情况,在这种情况下,数据的分布是接近的,但并不完全等于其变换后的副本(第6节)。 使用最优输运理论,我们描述了一个有趣的偏差-方差折衷:当轨道平均操作减少方差时,由于非精确不变性,会产生一定程度的偏差。 数据增强的性能受组的可变性以及数据与其转换后的副本之间的特定Wasserstein距离的支配。
- 我们使用神经正切核的最新结果(参见例如Jacot等人2018; Arora等人2019),通过研究由梯度下降训练的过参数化两层网络的泛化误差(第7节)来说明偏差方差的权衡。 ; Ji and Telgarsky 2019; Chen et al.2019)。
- 我们还描述了一些重要的问题,其中出现了对称性,但是当前使用了其他方法(而不是数据增强)(第8节):冷冻电子显微镜(cryo-EM),球形不变数据和随机效应模型。 这些问题对于使用数据增强可能特别有希望。
网友评论