基于傅里叶的泛化界
考虑一个有着n个训练样本的监督学习任务和函数空间
。我们对泛化风险的一致收敛界感兴趣。一个标准的方法来界定泛化风险是基于Rademacher complexity。给的那个样本
,
的经验Rademacher complexity定义为
其中独立同分布于
。实际上,
的Rademacher complexity度量了
对于输入
随机标签的拟合能力。下述的结果说明了如何通过Rademacher complexity来界定
的泛化风险。
定理1(Barlett & Mendelson 2002)考虑一个损失函数
界为
。那么,对任意
,会以至少
的概率
由于Rademacher comlexity的基于范数的线性函数能近似有界,能有效应用定理1来界定范数有界的线性方程的泛化风险。为了在傅里叶域应用定理1,我们提供一个Rademacher complexity界对有限带宽的函数有着有界傅里叶范数。我们使用下述的Rademacher complexity界来界定两层神经网络的泛化风险。并分析了正弦激活函数基于梯度下降法的表现。
定理2考虑函数空间是
带宽有限函数
界定的傅里叶
。那么,样本
的经验Rademacher complexity界为:
推论1假设几乎一定成立,损失函数
是
的。那么,对所有
会以至少
的概率对任意
带宽有限函数
有着
傅里叶
:
上述推论界定了在所有带宽有限的函数一致的泛化风险,且
且
。然后,我们将上述的结果应用到两层神经网络上。
网友评论