机器学习基石笔记：04 Feasibility of Learn

作者: cherryleechen | 来源:发表于2019-04-29 10:54 被阅读8次

机器学习基石笔记：04 Feasibility of Learn
机器学习基石
机器学习资料汇总
ISLR细读-01
Scikit-learn python 资料收集
1.学习的问题-林轩田机器学习基石笔记（when）
2.二值分类-林轩田机器学习基石笔记（when）
林轩田机器学习基石课程笔记2 - 知识点补充2
《机器学习基石》——学习笔记
一次完整的机器学习过程（scikit learn library

机器学习是设计算法 $A$ ，在假设集合 $H$ 里，根据给定数据集 $D$ ，选出与实际模式 $f$ 最为相近的假设 $g$ （ $g$ 可能与 $f$ 相同，也可能不同）。
那什么情况下学习是可行的？即保证 $g$ 和 $f$ 是相似的。

数据集内的表现 $g$ 约等于 $f$ ;
$g$ 在数据集外的表现约等于 $g$ 在数据集内的表现。

结合1、2可保证，由算法在给定数据集上学习到的 $g$ （即数据集内的表现 $g$ 约等于 $f$ ）在数据集外的表现也约等于 $f$ ，即 $g$ 与 $f$ 相似。

一、如何保证2？

数据集内表现相同的多个假设在数据集外的部分数据上表现相差极大，即学习效果极差。

图1.1 数据集内外表现的差异

霍夫丁不等式：有一个装有绿色小球和橘色小球的罐子（假设球数无限），从中进行 $N$ 次有放回的取球实验，在这 $N$ 次实验中取出橘色小球的频率为 $\nu$ ，只要 $N$ 足够大，就可以用 $\nu$ 来估计 $\mu$ 即罐子中橘色小球的实际概率。

图1.2 霍夫丁不等式1

图1.3 霍夫丁不等式2

将霍夫丁不等式与学习相联系。当 $h$ 选定时，只要 $D$ 里样本数 $N$ 足够大且样本点独立同分布，就能保证 $h$ 在整个输入空间里的表现（异常点的概率）与数据集内的表现（ $D$ 里异常点的频率）在一定的概率范围内近似相等。

图1.4 与学习过程的联系

注意， $E_{out}(h)$ 实际是面向整个输入空间的，即数据集 $D$ 内和数据集 $D$ 外。

图1.5 数据集内外表现的联系

图1.6 h与f概率近似相等

二、如何保证1？

$A$ 根据 $D$ 在 $H$ 中选出使得 $E_{in}(h)$ 小的 $h$ 。

图2.1 h的选择

注意，2的保证是在给定 $h$ 的情况下，即 $h$ 的选择只有1个。
但是，1的保证需要在 $H$ 中进行选择，如果 $H$ 的 $size>1$ ，即 $h$ 有很多个，可能有限也可能无限，那么2的保证是否会受到影响呢？
坏数据：对于一个 $h$ ，使得 $h$ 在该数据内外表现差异很大的数据认为是坏数据。
可以理解为霍夫丁不等式的左式中概率衡量的事件： $E_{in}(h)$ 和 $E_{out}(h)$ 的差异大于容忍度 $\epsilon$ ，即对于一个 $h$ ，存在坏数据的概率小于等于霍夫丁的右式。
对于一个输入空间 $X$ ，能够产生的用于训练的数据 $D$ 有很多个，若对于一个 $h$ ，给定的数据刚好就是坏数据的概率是小于等于霍夫丁的右式的；若有 $M$ 个 $h$ ，给定的数据是其中某个 $h$ 的坏数据的概率是小于等于数据为 $h_1$ 的坏数据的概率+数据为 $h_2$ 的坏数据的概率+数据为 $h_3$ 的坏数据的概率+......+数据为 $h_M$ 的坏数据的概率。本质是求并集（小于等于的原因是有可能存在交集）。这里的 $M$ 实际是 $|H|$ ，即 $H$ 的 $size$ 。

图2.2 坏数据

图2.3 坏数据出现的概率上限

只要 $M$ 是有限值、 $N$ 足够大，不等式的右式就能足够小。
所以，
只要假设集大小有限、 $N$ 足够大 ------ 保证 $E_{in}$ 和 $E_{out}$ 的差异在容忍度内，
$A$ 根据 $D$ 在 $H$ 中挑选出 $g$ ------ 保证 $E_{in}$ 小，
就能说学习是PAC可能的。

图2.4 统计学习流程

但是，如果输入空间 $X$ 是无限的，那理论上对应的 $H$ 的数量也是无限的，即当 $|H|$ 无限大时，该怎么办呢？

机器学习基石笔记：04 Feasibility of Learn
机器学习是设计算法，在假设集合里，根据给定数据集，选出与实际模式最为相近的假设（可能与相同，也可能不同）。那什么情...
机器学习基石
Coursera课程豆瓣机器学习基石学习笔记 Learning from Data
机器学习资料汇总
机器学习课程台湾国立大学林轩田的机器学习基石和机器学习技法:包括老师主页，b站视频（基石和技法），很全面的笔记（...
ISLR细读-01
Python棒棒棒，然而在简明扼要地理解机器学习/深度学习的基石，即：统计学习(Statistical Learn...
Scikit-learn python 资料收集
[Python & Machine Learning] 学习笔记之scikit-learn机器学习库安装 What...
1.学习的问题-林轩田机器学习基石笔记（when）
更多笔记可至：林轩田机器学习基石笔记，不定期更新...
2.二值分类-林轩田机器学习基石笔记（when）
更多笔记可至：林轩田机器学习基石笔记，不定期更新...
林轩田机器学习基石课程笔记2 - 知识点补充2
详细笔记查看林轩田机器学习基石课程笔记2 - 学习回答Yes/No 问题在解释 Guarantee of P...
《机器学习基石》——学习笔记
转载自：https://www.douban.com/doulist/3440234/ 学习Coursera 上台...
一次完整的机器学习过程（scikit learn library
Query意图分析：记一次完整的机器学习过程（scikit learn library学习笔记）所谓学习问题，是...