美文网首页
论文阅读笔记:Universal approximation b

论文阅读笔记:Universal approximation b

作者: 抄书侠 | 来源:发表于2020-05-26 23:07 被阅读0次

    这一篇文章也独立研究了F-Principle(Frequency Principle),即神经网络具有优先收敛低频信号的特点。说明这是一个值得研究的方向,接下来将简要介绍一下本文的框架和主要内容。

    摘要

    深度神经网络的成功源自其在真实数据上的良好泛化。Zhang观测到神经网络能很容易过拟合随机标签。这个观测揭示着存在理论,我们无法充分解释为什么梯度方法可以找到神经网络的泛化解。在这个工作中,我们使用基于傅里叶的方法来研究基于梯度方法的一sinusoldal为激活函数的两层神经网络的基于梯度方法的泛化特性。我们证明了如果数据的分布具有很好的频域性质,如频带有限性,那么梯度方法就会收敛到具有泛化性的局部最小。我们还建立了基于傅里叶的在频带有限空间的泛化界,可以推广到其它激活函数。我们的泛化界激发了路径规范的分组版本,用于测量ReLU两层神经网络的复杂性。我们通过数值方法证明了,这种群路径范数的正则化导致了神经网络解决方案,高解决方案可以拟合真实标签,而又不会损失测试的准确性,同时又不会过拟合随机标签。

    引言

    给定DNN结构表示一个高度丰富的假设空间。然而,数值实验的结果表明简单的随机梯度下降能够有效找到能够同时在训练集和测试集表现良好的结果。
    弄清楚DNNs的泛化性由于两个原因,是非常难的:(1)神经网络的经验误差最小是一个有着很多局部最小值的非凸问题(2)两个不同的局部最小值在训练集有着相同训练表现却可能在测试集上表现很不一样。由于这些原因,神经网络优化方法在找到的局部最小值的泛化性上有着重要的作用。例如,SGD通过实验表明比large-batch的梯度下降效果要好。同样的,可以通过合并观测数据的几何形状的方法来提升梯度方法的表现。
    对于DNNs来说,一个优化方法不足以保证好的泛化性。Zhang通过实验揭示了通过SGD来训练的神经网络能够很轻易过拟合CIFAR-10的随机标签数据。然而,同样的神经网络通过SGD算法在原始CIFAR-10标签上达到了好的泛化性能。这个观测挑战了传统学习理论中解释为何SGD学习神经网络中泛化性好的假设。为了弄清这个现象,两个最近的工作提出用来研究神经网络的泛化界和复杂性度量,可以用来区别真实和随机标签所找到的局部最小值。Barlett证明了一个基于边界的泛化界且研究了它是如何和DNNs拟合真实和随机标签的泛化风险相关联的。Neyshabur研究了DNNs的不同复杂度得分,并研究了它们如何在不同的真实和随机标签中表现。复杂性的度量能有效区分好的和不好的泛化性的局部最小值。他们没有解释,然而为什么SGD收敛到泛化性良好的局部最小值当也存在能够在训练集上表现很好的差的局部最小值。

    为了解决这个问题,一个需要理解的是CIFAR-10的原始标签的主要特征,它和随机标签不一样,以及是如何通过SGD达到好的泛化性能的。在本文,我们通过在Fourier域来解决这个问题,在这里非随机的标签和随机标签表现截然不同。虽然通过少量测量恢复的信号具有良好的频谱特性,例如带宽限制,完全随机的随机过程没有带宽限制,也无法从有限数量的测量中恢复。

    使用频谱分析,我们聚焦于表征基础分布的频谱特性,可以通过基于梯度的时间利用该特性来收敛到可泛化的局部最小值。我们针对具有正弦激活函数的两层神经网络解决了这个问题,其中我们发现如果标签有有限带宽和Fourier\ell_1-norm。我们期望基于梯度的方法能够有好的泛化性表现。为了得到这个结果,我们首先发展了具有带宽限制且Fourier\ell_1-norm的的基于Fourier的泛化界。然后,我们证明了由正弦激活函数的两层神经网络通过梯度下降法得到的局部最小值具有带宽有限和Fourier\ell_1-norm,其范围取决于底层标记方案的频谱特性。

    作为傅里叶分析的副产品,我们导出了具有一般激活函数的两层神经网络的泛化界。对于带宽有限有着有限傅里叶l1函数的激活函数例如正弦或者高斯激活函数,我们的界比仅仅使用激活函数的Lipschitz常数要紧。对于ReLU类型的激活函数,我们的泛化界和基于Lipschitz的界线可比;然而,这导致了Neyshabur导出的路径范数。我们因此称这种能力范数为群路径范数,可以用作累加惩罚来正则化具有ReLU激活的2层神经网络。我们的数值实验表明可以通过正则化组路径范数来有效缩小泛化差距。

    基础

    监督学习和泛化

    假设我们给定n个样本(x_i,y_i)_{i=1}^n独立同分布采样自P_{X,Y}。其中X表示随机特征向量Y表示目标变量。使用这些n个样本,监督学习者的目标是从函数空间\mathcal{F}找到一个预测准则f,能从没见过的测试样本X预测Y。因此,给定损失函数\ell,监督学习想要找到f^*\in\mathcal{F}最小化风险,定义为\mathbb{E}[\ell(f(X),Y)]在真实分布下的均值。

    然而,监督学习并不知道真实分布P_{X,Y},只能接触到n个训练样本。监督学习可以最小化经验风险,定义为1/n\sum_{i=1}^n\ell(f(x_i),y_i)并寻求f_n^{emp}。因为我们至观察到了有限多的样本,经验风险和真实风险是不一样的。泛化风险定义为\mathbb{E}[\ell(f(X),Y)]-\frac{1}{n}\sum_{i=1}^n \ell(f(x_i),y_i)f的真实风险和经验风险不一样。研究f_n^{emp}在不同函数空间的泛化风险表现和学习算法是统计学习理论的核心话题。

    傅里叶变换和带宽有限函数

    考虑一个实值函数f:\mathbb{R}^k\rightarrow \mathbb{R}。这个函数的傅里叶变换记为\hat{f},定义为
    \widehat{f}(\boldsymbol{\xi})=\int f(\mathbf{x}) \exp \left(-2 \pi i \boldsymbol{\xi}^{T} \mathbf{x}\right) \mathrm{d} \mathbf{x}
    一些重要的傅里叶变换的例子为:

    • 正弦函数:f(x)=exp*(2\pi i \omega^T x),那么\hat{f}(\xi)=\delta(\xi-\omega)其中delta表示Dirac delta函数,也可以写成
      • f(x)=\cos(2\pi \omega^T x),那么\hat{f}(\xi)=1/2[\delta(\xi+\omega)+\delta(\xi-\omega)]
      • f(x)=\sin (2\pi \omega^T x),那么\hat{f}(\xi)=i/2[\delta(\xi+\omega)-\delta(\xi-\omega)]
    • 高斯函数:f(x)=(\sqrt{2\pi}\sigma)^kexp(-\|x\|^2_2/2\sigma^2),那么\hat{f}(\xi)=exp(-\sigma^2\|\xi\|^2_2/2)。因此,高斯函数的傅里叶变换保持高斯的形态。

    函数f称为B-bandlimited如果\hat{f}(\xi)=0对于\|\xi\|_2>B的所有\xi。最小的B称为f的bandwidth。我们使用\mathcal{B}(f)记为函数f的带宽。我们还使用\|\hat{f}\|_1来表示\ell_1范数的f傅里叶变换,
    \|\widehat{f}\|_{1}=\int|\widehat{f}(\boldsymbol{\xi})| \mathrm{d} \boldsymbol{\xi}
    我们称为f的傅里叶\ell_1范数。傅里叶\ell_1范数可以理解为f傅里叶变换下的绝对值,是\hat{f}稀疏性的近似度量。傅里叶\ell_1范数是缩放平移不变的,即如果我们定义g(x)=f(Wx+b)对于实值函数fW\in\mathbb{R}^{r\times k}以及b\in\mathbb{R}^r和一些r\leq k,有\|\hat{g}\|_1=\|\hat{f}\|_1。一些其它有用的傅里叶变换特性:

    • f(x)=\int \hat{f}(\xi)exp(2\pi i \xi^T x)d \xi,如果\hat{f}是实且非负的那么有\|\hat{f}\|_1=f(0)
    • 平移:\hat{f}_b(\xi)=exp(2\pi i b^T\xi)\hat{f}(\xi)其中f_b(x):=f(x-b),且有\|\hat{f_b}\|_1=\|\hat{f}\|_1\mathcal{B}(f_b)=\mathcal{B}(f)
    • 导数:\widehat{\nabla f}(\boldsymbol{\xi})=2 \pi i \widehat{f}(\boldsymbol{\xi}) \boldsymbol{\xi}其中\nabla f表示f的梯度。
    • 对称性:\int f(x)\overline{g(x)}dx = \int\hat{f}(\xi)\overline{\hat{g}(\xi)}d\xi其中\overline{z}表示z的共轭复数
    • 卷积: \hat{fg}=\hat{f}\star\hat{g}其中\star表示卷积操作,即\hat{f}\star\hat{g}(\xi):=\int\hat{f}(\eta)\hat{g}(\xi-\eta)d\eta。因此,\mathcal{B}(fg)\leq \mathcal{B}(f)+\mathcal{B}(g)\|\hat{fg}\|_1\leq \|\hat{f}\|_1\|\hat{g}\|_1

    相关文章

      网友评论

          本文标题:论文阅读笔记:Universal approximation b

          本文链接:https://www.haomeiwen.com/subject/bvguahtx.html