Hoeffding不等式的认识以及泛化误差上界的证明

作者: 云时之间 | 来源:发表于2017-03-06 16:10 被阅读2777次

Hoeffding不等式的认识以及泛化误差上界的证明
泛化误差上界证明：
统计学习方法
机器学习的泛化误差上界
4. 泛化理论
Hoeffding不等式简介
第二章模型评估与选择 (需要概率论和数理统计知识)
模型评估与选择
不等式(二)-Hoeffding不等式
DL learning notice 2

参考书目和论文：《统计学习方法》

A Tutorial on Support Vector Machine for Pattern Recognition

在机器学习中我们知道学习方法的泛化能力往往是通过研究泛化误差的概率上界所进行的，这个就简称为泛化误差上界。用直观的理解，在有限的训练数据中得到一个规律，认为总体也是近似这个规律的，那么就能用这个规律进行预测。比如一个大罐子里装满了红球和白球，各一半，我随手抓了一把，然后根据这些红球白球的比例预测整个罐子也是这样的比例，这样做不一定很准确，但结果总是近似的，而且如果抓出的球越多，预测结果也就越可信。具体来说就是通过比较两种学习方法的误差上界来比较他们的优劣。现在根据李航博士在《统计学习方法》中的例子，我来自己证明下泛化误差上界。毕竟自己学会推导才是自己的，看的懂的反而不一定。

1：二分类问题的泛化误差上界

考虑到二分类问题。现在假设给定一组训练数据集合T。这组数据集时从联合概率分布P(x，y)独立同时分布产生的。现在假设这个小空间是一个函数的有限集F={f1,f2,...,fd}，d是函数个数。设f是从F中选取的函数。现在的损失函数我们定义为0-1损失。

这样关于f的期望损失和经验损失分别是：

对于f（n）的泛化能力：

现在对F中有限集合中任意选出函数f的泛化误差上界：

泛化误差上界定理：假设当前空间是有限个函数的集合，对任意一个函数f∈F，至少以概率1−σ，以下的不等式成立：

不等式左端R(f)是泛化误差，右端为泛化误差上界。泛化误差上界中，第一项是训练误差，训练误差越小，泛化误差也越小。第二项ε(d,N,δ)，N越大，值越小，假设空间F包含的函数越多，值越大。这个定理可以从概率上说明使用经验风险近似期望风险的可信度，它与样本数量以及假设空间的复杂度有关。这个定理可以从概率上说明使用经验风险近似期望风险的可信度，它与样本数量以及假设空间的复杂度有关。

上述的定理可以用Hoeffding不等式来证明：

对于Hoeffding定理的一些理解：

Hoeffding不等式是关于一组随机变量均值的概率不等式。如果X1,X2,⋯,Xn为一组独立同分布的参数为p的伯努利分布随机变量，n为随机变量的个数。定义这组随机变量的均值为：