1. 介绍
-
针对整个输入空间,其分类误差可以被定义为:
-
给定一个包含N对输入-输出的训练集:,一个分类器能通过最小化经验风险(empirical risk)得到:
-
分类最终的目标是找到一个函数:,使之能对之前未见过的样本进行分类。它的泛化误差定义为:
2. 局部泛化误差模型
2.1 Q-Neighborhood and Q-Union(Q-邻近和Q联合)
对于每一个样本,寻找一个样本满足:,其中表示输入特征的数量,而,是一个实数。
在模式分类问题中,一般都不知道真实的输入分布。因此,在没有任何先验知识的情况下,每一个未曾见过的样本出现的概率可以假设是一样的。所以,可以看做是一个来自均值为0的平均分布的随机变量,这个随机变量是输入的一个扰动。
定义为训练样本的Q-邻近。让表示所有的一个联合,叫做Q-联合。
在的所有样本,除了都看做是未见过的样本。
对于,有如下关系:
2.2 局部泛化误差界的推导()
文中在找到了一个边界,它是关于里未出现过的样本的误差(实际上用这个去近似关于整个输入空间内未出现过的样本的泛化误差界。)。如下图所示:
image.png所以实际上忽略了一些离训练样本比较远的未出现过样本的误差。
注意:当增加时,减少。
记:
,,那么就能写作:
所以样本的误差期望可以写成:
这个样本在的分布是,因为文章采用的是方形邻域,其点的分布是均匀的。
A:目标输出值的最大值减去最小值
B:MSE的最大值
N:训练样本的数量
的推导如下:
2.3 RBFNN的随机灵敏度测量
- 输出扰动衡量了训练样本和未见过样本(在Q领域内)经过网络作用后输出的差别。所以ST-SM衡量了训练样本和未见过样本(在Q领域内)经过网络作用后输出的平方的期望。
- 神经网络的灵敏性测量:
-
W. W. Y. Ng and D. S. Yeung, “Selection of weight quantisation accu- racy for radial basis function neural network using stochastic sensitivity measure,” Inst. Electr. Eng. Electron. Lett., pp. 787–789, 2003
-
W. W. Y. Ng, D. S. Yeung, X.-Z. Wang, and I. Cloete, “A study of the difference between partial derivative and stochastic neural network sensitivity analysis for applications in supervised pattern classifica- tion problems,” in Proc. Int. Conf. Mach. Learn. Cybern., 2004, pp. 4283–4288.
-
W. W. Y. Ng, D. S. Yeung, and I. Cloete, “Quantitative study on ef- fect of center selection to RBFNN classification performance,” in IEEE Proc. Int. Conf. Syst., Man, Cybern., 2004, pp. 3692–3697.
-
这些论文给出一种量化指标去表示网络的输入对输出的敏感性。
在【3】论文里,每一个输入与权重的扰动都允许是随机的。因此,受扰动的样本都能被看成在训练样本()周围的未见过的样本。在【1】中建立了高斯激活函数RBFNN的ST-SM解析式,它跟训练样本的数量无关。我们假设输入是独立的,不具有恒等分布,且不考虑权重扰动,所以每一个输入的特征都有自己的期望和方差。输入的第i个特征的扰动是一个均值为0方差为的随机变量。隐藏神经元的中心和宽度是恒定的,连接权值是预先确定的。一个RBFNN可以被描述如下:
其中分别表示隐藏层的节点数、中心、第j个RBFNN隐藏节点的宽度。表示第j个隐藏神经元与对应输出的权重。
记:
(这小节看不太懂)
2.4 的特征
有三个部分:训练误差()、ST-SM()和一个常数。文章讨论了一下几个点:
1. $R_{\mathrm{SM}}^{*}(Q)$的极限情况
2. 关于其他分类器的$R_{\mathrm{SM}}^{*}(Q)$
3. 训练方法的独立性
4. 时间复杂度
5. Localized Generalization Error Model的缺点
6. $R_{\mathrm{SM}}^{*}(Q)$和正则化
7. 预测Q-Union没覆盖住的区域的样本
2.5 用比较两个分类器
比较两个分类器的性能好坏有两个方法:一是固定住,比较不同的Q值;二是固定住Q值,比较。
3. 用和选择架构
RBFNN的隐藏层节点的选择这个工作已经有许多文章去做了,主要是用 Sequential 或 ad hoc choice的方法。序列学习技术只利用训练误差来确定隐藏神经元的个数,不考虑泛化能力。
文章假设分类器是知道训练样本的数量的。在此基础上提出一个基于的新技术,去寻找一个RBFNN最优的隐藏层节点数,使之能提高网络的泛化能力。
网友评论