PAC学习理论

作者: DouMarK | 来源:发表于2019-01-20 23:27 被阅读38次

PAC学习理论
PAC 可学习性
《机器学习》第12章 PAC学习理论
PAC
PAC
PAC文件编写与调试
debian 7+ 一键部署anyconnect&&pac智能分
Mac 自动代理配置-本地pac文件【仅适配Safari浏览器】
学习理论
你真的会使用Charles么

PAC总结理论：同等条件下，模型越复杂泛化误差越大。同一模型在样本满足一定条件的情况下，其数量越大，模型泛化误差越小，因此还可以说模型越复杂越吃样本。

1.基础知识：

计算学习理论研究的是关于通过“计算”来进行“学习”的理论，其目的是分析学习任务的困难本质，为学习算法提供理论保证，并根据分析结果知道算法

几个常用的不等式：

Jensen不等式：对任意凸函数f(x),有：

Hoeffding不等式：
McDiarmid不等式：

数学上用Sup{}这个记号表示“上确界”，即最小上界。为英文supremum的缩写。

2.PAC学习（概率近似正确学习）：

PAC学习理论的作用：

让你明白到，为什么一个假设（模型或函数）学习了训练样本后，能保证这个假设在训练样本之外的数据上有效。

什么是PAC学习理论：

某个训练样本对正确目标的映射，而称为‘概念’，用符号c表示，即存在一个映射，使得c（x） = y，这只是某一个结果，并不是集合。
所有我们希望所有训练目标的映射集合为‘概念类’，用符号C表示。
模型经过训练后得到的所有结果映射集合，称为‘假设空间’，用符号H表示。
首先PAC学习理论对机器学习算法结果有两个概念

可分的：
训练样本通过学习算法后，得出的假设空间，c属于H，我们称为可分的
不可分的：
训练样本通过学习算法后，得出的假设空间，c不属于H，我们称为不可分的

当然在学习算法中，我们都希望学习算法尽可能有更多的c属于H中，为什么只是尽可能多，而不是要求精确呢？因为在机器学习算法中，会受到很多因素的制约，所以并不会百分百地对应到。
当选择学习算法时候，我们希望以比较大的把握学得比较好的模型。要判断哪些学习算法能选用，这就需要符合PAC可学习性

PAC可学习性：

首先学习算法得出的‘假设’必须满足以下的两个条件（PAC辨识）才算上“近似”正确对应目的概念c：

PAC辨识：

近似正确：泛化误差E(h)足够小
E(h)越小越好，最好泛化误差能能于0，但一般是不可能的。那我们就把E(h)限定在一个很小的数ϵ之内，即只要假设h满足E(h)≤ϵ，我们就认为h是正确的。

可能正确
不指望选择的假设h百分之百是近似正确的（按上段所述，即E(h)≤ϵ），只要很可能是近似正确的就可以，即我们给定一个值δ，假设h满足P(h近似正确)≥1−δ

满足以上两点的学习算法，就是能以较大概率学得目标概念c的近似。

PAC可学习：

概念：当学习算法能从假设空间H中PAC辨识概念类C，则称概念类对假设空间H而言是PAC可学习的。
PAC学习中一个关键因素是假设空间H的复杂度，H包含了学习算法所有可能输出的假设。在实际问题中概念类C往往是不等于H的，因为我们对概念类，往往一概不知。当H越大，其包含任意目标概念的可能性越大，但从中找到某个具体目标概念的难度也越大。|H|有限时候，我们称H为“有限假设空间”，否则称为“无限假设空间”

可分情形:

在可分情形下，如何找到满足误参数的假设呢？
训练集D中，样例都可以通过目标概念c，映射结果，而c存在假设空间H中，那么我们通过保留D中一致的假设，剔除与D不一致的假设，知道H只剩下一个假设位置，这个假设就是目标概念。前提是训练集D足够大。

不可分情形：

对比较困难的学习问题，目标概念c通常不存在于H中，也就是说，H中的任意一个假设都会在训练集上出现或多或少的错误，有Hoeffding不等式知：

通过式12.17可得：

令置信区间等于2|H|exp（-2mϵ²），并经过转换，即可得式12.19

由12.19可知，不可分时，学习算法无法学得目标概念c的ϵ近似，但是，当假设空间H给定时，其中必存在一个泛化误差最小的假设，所以解决这些不可知学习，最好办法是找到此假设的ϵ近似。

满足上述公式条件的，我们可称该假设空间H为不可知PAC可学习的。

网友评论

本文标题：PAC学习理论

本文链接：https://www.haomeiwen.com/subject/gnltjqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！