机器学习基石笔记：06 Theory of Generaliza

机器学习基石笔记：06 Theory of Generaliza

作者: cherryleechen | 来源:发表于2019-04-30 16:10 被阅读5次

机器学习基石笔记：06 Theory of Generaliza
机器学习基石
机器学习资料汇总
1.学习的问题-林轩田机器学习基石笔记（when）
2.二值分类-林轩田机器学习基石笔记（when）
林轩田机器学习基石课程笔记2 - 知识点补充2
《机器学习基石》——学习笔记
机器为什么能学习(上)
第一讲 ①：What is Machine Learning
《机器学习基石》作业笔记

一、限界函数

若 $H$ 的断点为 $k$ ，即 $k$ 个数据点不能被 $H$ 给shatter，那么 $k+1$ 个数据点也不能被 $H$ 给shatter，即 $k+1$ 也是 $H$ 的断点。如果给定的样本数 $N$ 是大于等于 $k$ 的，易得 $m_H(N)<2^N$ ，且随着 $N$ 的增大，其小得越来越多。

图1.1 断点相关1

图1.2 断点相关2

当断点为 $k$ 时，记最大可能的成长函数 $m_H(N)$ 为bound函数，记为 $B(N,k)$ ，其只和 $N$ 、 $k$ 有关。
注意比较，发现bound函数比起成长函数消除了 $H$ 。如果无断点，自然没有 $B(N,k)$ 什么事；如果断点为 $k$ ，那么 $m_H(N)$ 是给定 $H$ 下，在 $N$ 上可能的最大假设类数； $B(N,k)$ 是不限 $H$ 下，在 $N$ 上可能的最大假设类数。 $B(N,k)=\max\limits_H \ m_H(N)$ ，只和样本数 $N$ 和断点 $k$ 有关。注意这里的 $H$ 要求有相同的 $k$ 。

图1.3 限界函数的定义

通过数学归纳法可证得： $B(N,k)$ 实际被 $N^{k-1}$ 所框住。

图1.4 数学归纳法1

图1.5 数学归纳法2

既然成长函数的上限被 $N$ 的多项式给框住，易得，如果断点存在的话，成长函数是多项式型的，证明了上一节的猜想。

图1.6 常见的假设集对应的限界函数

二、VC边界

再看保证 $E_{in}$ 和 $E_{out}$ 的不等式，可以证得：

图2.1 概率上限的最终形式

证明如下：

用和训练集同样大小的测试集上的表现替代整体输入空间上的表现，认为使得训练集内和整体表现差异过大的坏数据也会使得训练集和测试集上的表现差异过大；
这里做了2件事：
一是用有限的训练集+有限的测试集替代了无限的输入空间，将无限的 $X$ 变为数量为 $2N$ 的有限数据集；
二是用完美划分该有限数据集的模式 $f'$ 代替了完美划分整个输入空间的模式 $f$ 。这一步实际是进行了松弛操作，因为 $f'$ 的数量多于 $f$ 。

图2.2 推导1

用有限类数 $m_H(2N)$ 替代无限 $|H|$ ；

图2.3 推导2

使用不放回的霍夫丁不等式。
对应于在取小球实验里不放回地抽取，取出的橘色小球频率和罐子里剩余的橘色小球概率依旧概率近似相等。因为 the inequalities also hold when the $X_i$ have been obtained using sampling without replacement; in this case the random variables are not independent anymore.（来自维基百科）

图2.4 推导3

最终得到VC bound：

图2.5 VC边界

所以，2维感知器算法在训练集 $D$ 上学习到的 $g$ 泛化到整个输入空间 $X$ 上是概率近似可行的。
那3维及以上维数的感知器算法呢？

相关文章

机器学习基石笔记：06 Theory of Generaliza
一、限界函数若的断点为，即个数据点不能被给shatter，那么个数据点也不能被给shatter，即也是的断点。如...
机器学习基石
Coursera课程豆瓣机器学习基石学习笔记 Learning from Data
机器学习资料汇总
机器学习课程台湾国立大学林轩田的机器学习基石和机器学习技法:包括老师主页，b站视频（基石和技法），很全面的笔记（...
1.学习的问题-林轩田机器学习基石笔记（when）
更多笔记可至：林轩田机器学习基石笔记，不定期更新...
2.二值分类-林轩田机器学习基石笔记（when）
更多笔记可至：林轩田机器学习基石笔记，不定期更新...
林轩田机器学习基石课程笔记2 - 知识点补充2
详细笔记查看林轩田机器学习基石课程笔记2 - 学习回答Yes/No 问题在解释 Guarantee of P...
《机器学习基石》——学习笔记
转载自：https://www.douban.com/doulist/3440234/ 学习Coursera 上台...
机器为什么能学习(上)
本篇文章是台湾大学《机器学习基石上》的课程笔记。以PLA算法为例，推导证明机器学习的可行性。问题概述机器学习在...
第一讲 ①：What is Machine Learning
本文为Coursera《机器学习基石》课程笔记，传送门：https://class.coursera.org/nt...
《机器学习基石》作业笔记
本课可以为机器学习打下较为坚实的基础 cousera的课程主页：https://www.coursera.org/...

网友评论

ML&DL

本文标题：机器学习基石笔记：06 Theory of Generaliza

本文链接：https://www.haomeiwen.com/subject/nhumnqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

栏目导航

热点阅读

ML&DL

关于我们|服务条款|联系我们|机器学习基石笔记：06 Theory of Generaliza|投稿指南|网站地图|RSS订阅|排版工具|手机版

提供经典美文摘抄,优美散文欣赏,现代诗歌精选,短篇小说,心情随笔,表白情书范文,故事会在线阅读欣赏

Copyright © 2014-2023 Haomeiwen.com All Rights Reserved. 好美文阅读网版权所有

备案信息：桂公网安备 45052102000051号 · 桂ICP备13007215号-3

本站所收录作品、热点评论等信息部分来源互联网，目的只是为了系统归纳学习和传递资讯

所有作品版权归原创作者所有，与本站立场无关，如不慎侵犯了你的权益，请联系我们告知，我们将做删除处理！