美文网首页
Universal spectral 续

Universal spectral 续

作者: 抄书侠 | 来源:发表于2020-05-27 10:16 被阅读0次

基于傅里叶的泛化界

考虑一个有着n个训练样本(x_i,y_i)_{i=1}^n的监督学习任务和函数空间\mathcal{F}。我们对泛化风险的一致收敛界感兴趣。一个标准的方法来界定泛化风险是基于Rademacher complexity。给的那个样本(x_i,y_i)_{i=1}^n\mathcal{F}的经验Rademacher complexity定义为
\mathcal{R}_{n}^{\mathrm{emp}}(\mathcal{F}):=\mathbb{E}_{\boldsymbol{\sigma}}\left[\sup _{f \in \mathcal{F}} \frac{1}{n} \sum_{i=1}^{n} \sigma_{i} f\left(\mathbf{x}_{i}\right)\right]
其中\sigma_i独立同分布于\{-1,+1\}。实际上,\mathcal{F}的Rademacher complexity度量了\mathcal{F}对于输入x_i随机标签的拟合能力。下述的结果说明了如何通过Rademacher complexity来界定\mathcal{F}的泛化风险。
定理1(Barlett & Mendelson 2002)考虑一个\rho-Lipaschitz损失函数\ell(f(x),y)界为|\ell(z,y)|\leq c。那么,对任意\delta>0,会以至少1-\delta的概率
\forall f \in \mathcal{F}: \quad \mathbb{E}[\ell(f(\mathbf{X}), Y)]-\frac{1}{n} \sum_{i=1}^{n} \ell\left(f\left(\mathbf{x}_{i}\right), y_{i}\right) \leq 2 \rho \mathcal{R}_{n}^{\mathrm{emp}}(\mathcal{F})+4 c \sqrt{\frac{2 \log (4 / \delta)}{n}}
由于Rademacher comlexity的基于范数的线性函数能近似有界,能有效应用定理1来界定范数有界的线性方程的泛化风险。为了在傅里叶域应用定理1,我们提供一个Rademacher complexity界对有限带宽的函数有着有界傅里叶\ell_1范数。我们使用下述的Rademacher complexity界来界定两层神经网络的泛化风险。并分析了正弦激活函数基于梯度下降法的表现。

定理2考虑函数空间\mathcal{F}=\{f:\mathbb{R}^k \rightarrow \mathbb{R} s.t. \mathcal{B}(f)\leq B,\|\hat{f}\|_1\leq V\}B-带宽有限函数V-界定的傅里叶\ell_1-norm。那么,样本(x_i,y_i)_{i=1}^n的经验Rademacher complexity界为:
\mathcal{R}_{n}^{\mathrm{emp}}(\mathcal{F}) \leq V \sqrt{\frac{4 k \log \left(64 n B \max _{i}\left\|\mathbf{x}_{i}\right\|_{2}\right)}{n}}

推论1假设\|x\|_2\leq C几乎一定成立,损失函数\ell\rho-Lipschitz的。那么,对所有\delta>0会以至少1-\delta的概率对任意B-带宽有限函数f有着V-bounded傅里叶\ell_1-norm:
\mathbb{E}[\ell(f(\mathbf{X}), Y)]-\frac{1}{n} \sum_{i=1}^{n} \ell\left(f\left(\mathbf{x}_{i}\right), y_{i}\right) \leq O(\rho V \sqrt{\frac{k \log (n B C / \delta)}{n}})

上述推论界定了在所有带宽有限的函数f一致的泛化风险,且\mathcal{B}(f)\leq B\|\hat{f}\|_1\leq V。然后,我们将上述的结果应用到两层神经网络上。

相关文章

网友评论

      本文标题:Universal spectral 续

      本文链接:https://www.haomeiwen.com/subject/aqeiahtx.html