美文网首页ML&DL
机器学习基石笔记:05 Training versus Test

机器学习基石笔记:05 Training versus Test

作者: cherryleechen | 来源:发表于2019-04-30 16:07 被阅读3次

    一、概率上限值的来源

    train:A根据给定训练集DH中选出g,使得E_{in}(g)约等于0;
    test:g在整个输入空间X上的表现要约等于在训练集D上的表现,使得E_{out}(g)约等于E_{in}(g)

    图1.1 学习的可行性

    对于P_{D}(BAD \ D) \le 2Mexp(-2\epsilon^2N)这个不等式来说,
    如果|H|小,更易保证test(不等式右式小),难保证train(选择少);
    如果|H|大,更易保证train(选择多),难保证test(不等式右式大)。
    如果|H|无限呢?2Mexp(-2\epsilon^2N)可能大于1了,对于概率值上限来说失去意义。那能否用个有限值代替|H|呢?看一下2Mexp(-2\epsilon^2N)这个上限的来源。

    图1.2 概率上限的来源

    从图1.2中可以看出,求概率上限值的本质是求并集,但是得出2Mexp(-2\epsilon^2N)这个式子是在默认无交集的情况下求的并集。实际上,A确定后,H形式也确定。给定D,在H里存在相似的h,这些hD上的表现一致,即存在交集。所以,2Mexp(-2\epsilon^2N)这个式子作为上限来说过大了。

    二、成长函数

    给定D,可通过将H里相似h分到同类里(同类里h的数目可能是无限的),将|H|变为类数,就可能将无限的|H|变为有限的类数。
    定义给定D下,将|H|分得的类为dichotomies(二分法),每一个dichotomy在D上表现相同。假设D里有2个样本点,将D分为OO、OX、XO、XX的h分别归为一类,共有4类。可以发现dichotomies的数量是依赖于具体DH的,但是dichotomies的数量的最大值只依赖与D里样本点的个数NH。例如,在感知器算法中,N=2时,最大值不超过2的N次方,这里是4。
    定义dichotomies的数量的最大值为N的成长函数,记为m_H(N),其只和HN有关。即,给定样本数NH里假设类数是小于等于m_H(N)的。例如,对于2维感知机,m_H(1)=2m_H(2)=4m_H(3)=8m_H(4)=14

    图2.1 dichotomies
    图2.2 成长函数的定义
    图2.3 正射线的成长函数
    图2.4 正间隔的成长函数
    图2.5 常见的假设集对应的成长函数

    可以看出,成长函数可能是多项式型的(好的,能保证只要N足够大,2m_H(N)exp(-2\epsilon^2N)小),也可能是指数型的(坏的)。那对于2维及以上维数的感知机,成长函数是多项式型的吗?

    图2.6 多项式型和指数型成长函数

    三、断点

    shatter(使粉碎):如果H里的假设能够保证k个输入能够输出任意标签的组合,称H能shatter这k个输入。
    break point kH不能shatter这k个输入,称k为断点。

    图3.1 断点的定义
    图3.2 常见的假设集对应的断点值

    猜想(conjecture),只要存在断点,就能保证成长函数是多项式型,进而保证了test?!

    相关文章

      网友评论

        本文标题:机器学习基石笔记:05 Training versus Test

        本文链接:https://www.haomeiwen.com/subject/kyrmnqtx.html