美文网首页
阅读与实践:Localized Generalization E

阅读与实践:Localized Generalization E

作者: winddy_akoky | 来源:发表于2019-07-19 19:38 被阅读0次

    1. 介绍

    • 针对整个输入空间,其分类误差可以被定义为:
      R_{\text { true }}=\int_{T}\left(f_{\theta}(\mathbf{x})-F(\mathbf{x})\right)^{2} p(\mathbf{x}) d \mathbf{x}

    • 给定一个包含N对输入-输出的训练集DD=\left\{\left(\mathbf{x}_{b}, F\left(\mathbf{x}_{b}\right)\right)\right\}_{b=1}^{N},一个分类器f_{\theta}能通过最小化经验风险(empirical risk)得到:
      R_{\mathrm{emp}}=\frac{1}{N} \sum_{b=1}^{N}\left(f_{\theta}\left(\mathbf{x}_{b}\right)-F\left(\mathbf{x}_{b}\right)\right)^{2}

    • 分类最终的目标是找到一个函数:f_{\theta},使之能对之前未见过的样本进行分类。它的泛化误差定义为:
      R_{\mathrm{gen}}=\int_{T \backslash D}\left(f_{\theta}(\mathbf{x})-F(\mathbf{x})\right)^{2} p(\mathbf{x}) d \mathbf{x}

    2. 局部泛化误差模型

    2.1 Q-Neighborhood and Q-Union(Q-邻近和Q联合)

    对于每一个样本\mathbf{x}_{b} \in D,寻找一个样本\mathbf{X}满足:0<\left|\Delta x_{i}\right|<Q \forall i=1, \ldots, n,其中n表示输入特征的数量,而\Delta \mathbf{x}=\left(\Delta x_{1}, \ldots, \Delta x_{n}\right)^{\prime}=\mathbf{x}-\mathbf{x}_{b}Q是一个实数。
    在模式分类问题中,一般都不知道真实的输入分布。因此,在没有任何先验知识的情况下,每一个未曾见过的样本出现的概率可以假设是一样的。所以,\Delta \mathbf{x}可以看做是一个来自均值为0的平均分布的随机变量,这个随机变量是输入的一个扰动。

    S_{Q}\left(\mathbf{x}_{b}\right)=\left\{\mathbf{x}\left|\mathbf{x}=\mathbf{x}_{b}+\Delta \mathbf{x} ;\right| \Delta x_{i} | \leq Q \quad \forall i=1, \ldots, n\right\}

    S_{Q}\left(\mathbf{x}_{b}\right)定义为训练样本\mathbf{X}_{b}的Q-邻近。让S_{Q}表示所有S_{Q}\left(\mathbf{x}_{b}\right)的一个联合,叫做Q-联合。
    S_{Q}\left(\mathbf{x}_{b}\right)的所有样本,除了\mathbf{x}_{b}都看做是未见过的样本。

    对于0 \leq Q_{1} \leq \cdots \leq Q_{k} \leq \infty,有如下关系:
    D \subseteq S_{Q_{1}} \subseteq \cdots \subseteq S_{Q_{k}} \subseteq T

    2.2 局部泛化误差界的推导(R_{\mathrm{SM}}^{*}

    文中在R_{\mathrm{SM}}找到了一个边界,它是关于S_{Q}里未出现过的样本的误差(实际上用这个去近似关于整个输入空间T\left(R_{\text { true }}\right)内未出现过的样本的泛化误差界。)。如下图所示:

    image.png

    所以实际上忽略了一些离训练样本比较远的未出现过样本的误差。
    R_{\mathrm{SM}}(Q)=R_{\mathrm{true}}-R_{\mathrm{res}}(Q)=\int_{S_{Q}}\left(f_{\theta}(\mathbf{x})-F(\mathbf{x})\right)^{2} p(\mathbf{x}) d \mathbf{x}
    注意:当Q增加时,R_{\mathrm{res}}减少。

    记:
    \Delta y=f_{\theta}(\mathbf{x})-f_{\theta}\left(\mathbf{x}_{b}\right)\operatorname{err}_{\boldsymbol{\theta}}\left(\mathbf{x}_{b}\right)=f_{\theta}\left(\mathbf{x}_{b}\right)-F\left(\mathbf{x}_{b}\right),那么R_{\text { ennp }}就能写作:
    R_{\text { emp }}=\quad(1 / N) \sum_{b=1}^{N}\left(\operatorname{err}_{\theta}\left(\mathbf{x}_{b}\right)\right)^{2}
    所以样本的误差期望可以写成:
    E_{S_{Q}}\left((\Delta y)^{2}\right)=(1 / N) \sum_{b=1}^{N} \int_{S_{Q}\left(\mathbf{x}_{b}\right)}(\Delta y)^{2} 1 /(2 Q)^{n} d \mathbf{x}
    这个样本在S_{Q(x_b)}的分布是(2 Q)^{n},因为文章采用的是方形邻域,其点的分布是均匀的。

    A:目标输出值的最大值减去最小值
    B:MSE的最大值
    N:训练样本的数量
    R_{\mathrm{SM}}^{*}(Q)的推导如下:

    image.png

    2.3 RBFNN的随机灵敏度测量

    • 输出扰动\Delta y衡量了训练样本\mathbf{x}_{b} \in D和未见过样本(在Q领域内\left(\mathbf{x}_{b}+\Delta \mathbf{x}\right) \in S_{Q}\left(\mathbf{x}_{b}\right))经过网络作用后输出的差别。所以ST-SM衡量了训练样本\mathbf{x}_{b} \in D和未见过样本(在Q领域内\left(\mathbf{x}_{b}+\Delta \mathbf{x}\right) \in S_{Q}\left(\mathbf{x}_{b}\right))经过网络作用后输出的平方的期望。

    • 神经网络的灵敏性测量:
      1. W. W. Y. Ng and D. S. Yeung, “Selection of weight quantisation accu- racy for radial basis function neural network using stochastic sensitivity measure,” Inst. Electr. Eng. Electron. Lett., pp. 787–789, 2003

      2. W. W. Y. Ng, D. S. Yeung, X.-Z. Wang, and I. Cloete, “A study of the difference between partial derivative and stochastic neural network sensitivity analysis for applications in supervised pattern classifica- tion problems,” in Proc. Int. Conf. Mach. Learn. Cybern., 2004, pp. 4283–4288.

      3. W. W. Y. Ng, D. S. Yeung, and I. Cloete, “Quantitative study on ef- fect of center selection to RBFNN classification performance,” in IEEE Proc. Int. Conf. Syst., Man, Cybern., 2004, pp. 3692–3697.

    这些论文给出一种量化指标去表示网络的输入对输出的敏感性。
    在【3】论文里,每一个输入与权重的扰动都允许是随机的。因此,受扰动的样本都能被看成在训练样本(\mathbf{x}_{b})周围的未见过的样本。在【1】中建立了高斯激活函数RBFNN的ST-SM解析式,它跟训练样本的数量无关。我们假设输入是独立的,不具有恒等分布,且不考虑权重扰动,所以每一个输入的特征都有自己的期望\mu_{x_{i}}和方差\sigma_{x_{i}}^{2}。输入的第i个特征的扰动是一个均值为0方差为\sigma_{\Delta x_{i}}^{2}的随机变量。隐藏神经元的中心和宽度是恒定的,连接权值是预先确定的。一个RBFNN可以被描述如下:
    f_{\theta}(\mathbf{x})=\sum_{j=1}^{M} w_{j} \exp \left(\frac{\left\|\mathbf{x}-\mathbf{u}_{j}\right\|^{2}}{-2 v_{j}^{2}}\right)=\sum_{j=1}^{M} w_{j} \phi_{j}(\mathbf{x})
    其中M,\mu_j,v_j分别表示隐藏层的节点数、中心、第j个RBFNN隐藏节点的宽度。w_{j}表示第j个隐藏神经元与对应输出的权重。
    记:
    \varphi_{j}=\left(w_{j}\right)^{2} \exp \left(\left(\operatorname{Var}\left(s_{j}\right) / 2 v_{j}^{4}\right)-\left(E\left(s_{j}\right) / v_{j}^{2}\right)\right)

    (这小节看不太懂)


    2.4 R_{\mathrm{SM}}^{*}的特征

    R_{\mathrm{SM}}^{*}有三个部分:训练误差(R_{\mathrm{emp}})、ST-SM(E_{S_{Q}}\left((\Delta y)^{2}\right))和一个常数。文章讨论了一下几个点:

    1. $R_{\mathrm{SM}}^{*}(Q)$的极限情况
    
    2. 关于其他分类器的$R_{\mathrm{SM}}^{*}(Q)$
    
    3. 训练方法的独立性
    
    4. 时间复杂度
    
    5. Localized Generalization Error Model的缺点
    
    6. $R_{\mathrm{SM}}^{*}(Q)$和正则化
    
    7. 预测Q-Union没覆盖住的区域的样本
    

    2.5 用R_{\mathrm{SM}}^{*}比较两个分类器

    比较两个分类器的性能好坏有两个方法:一是固定住R_{\mathrm{SM}}^{*}(Q),比较不同的Q值;二是固定住Q值,比较R_{\mathrm{SM}}^{*}(Q)

    3. 用R_{\mathrm{SM}}^{*}(Q)R_{\mathrm{SM}}^{*}-\mathrm{MC}^{2} \mathrm{SG}选择架构

    RBFNN的隐藏层节点的选择这个工作已经有许多文章去做了,主要是用 Sequential 或 ad hoc choice的方法。序列学习技术只利用训练误差来确定隐藏神经元的个数,不考虑泛化能力。
    文章假设分类器是知道训练样本的数量的。在此基础上提出一个基于R_{\mathrm{SM}}^{*}的新技术,去寻找一个RBFNN最优的隐藏层节点数,使之能提高网络的泛化能力。

    相关文章

      网友评论

          本文标题:阅读与实践:Localized Generalization E

          本文链接:https://www.haomeiwen.com/subject/mxadlctx.html