3. 训练与测试

作者: edwin1993 | 来源:发表于2018-04-02 11:17 被阅读7次
  • 训练与测试
  • 例证
  • 重要概念:断点

训练与测试

以一次期末考试为例:

在测试中:
Ein 是考前复习时,与复习资料之间的误差。
Eout 是考试中,与考试资料之间的误差。
在训练中:
Ein 是对于练习题的学习误差。
Eout 是对于联系材料整体的学习误差。
但是在学习过程中,因为对材料整体越来越熟悉,反应你学习的复杂程度(次数)。


M来自哪里

对于不良事件记为:Bm
此时

其反应为B1到BM中至少有一个发生。


很明显,我们对Bad event的约束有很多重复,所以可以从这方面入手进行优化。

M的优化

以感知器模型为例进行说明:
Ein 与 Eout 其物理意义如图:


Eout.png Ein.png

当模型有所改变时:


改变十分微小的时候,h1 和 h2 两者的Ein 和Eout的差值几乎不变,这就是重叠部分的来源。

二分

因为输入空间是无限的,所以我们选择去考量有限个输入点序列。并统计点的二分数量(对或者错)
就像我们在上排图中改变感知器模型任意次,单下排图中的样本点时,我们只会认为这是同一种情况。

所以说,我们将整个输入空间变为了一个输入序列。进而可以为假设限定上限。

增长函数

对于上述的情况,我们为M设定了增长函数来对其进行限定。

将M的增长函数应用于感知器模型

我们发现,N=4的例子中,我们无法取得所有的组合方式,所以2N这一上限无法达到。

例证

positive rays
positive intervals
凸集
三种情况下的增长函数
总结

因为指数的数字非常小,所以当m是一个多项式的时候,小的指数会使得多项式中绝大多数的失效,进而简化多项式。同时使得不等式右侧足够的小,这样一来就说明了模型的推广性与可用性。

image.png

重要概念:断点(break point)

定义

定义:自断点起,你无法获得所有的二分组合。
其对应了模型的复杂程度。

下图中,四个点的分布无法使用感知器模型进行彻底的二分,所以在该假设空间中,K=4。所以,我们在得知断点的情况下,无需关系N的大小。如此一来,可以将增长函数进行限定。

上述三个例证的断点
应用方式

K = 2时,任意三个点的组合:

image.png

不能够获得K=2个点的所有组合。
仅四个可实现的组合,证明了K是一个极佳限定方式。

相关文章

  • 3. 训练与测试

    训练与测试 例证 重要概念:断点 训练与测试 以一次期末考试为例: 在测试中:Ein 是考前复习时,与复习资料之间...

  • [机器学习实战-分类-决策树]-以鸢尾花分类实验为例

    整套流程:1.数据获取,划分训练集测试集2.模型训练->模型预测->模型评估3.模型的保存与加载4.模型可视化ir...

  • 周检视(9.17-23)

    一、本周重点: 1.变压器增容 2.调试设备及操作训练 3.配方测试与改进 小结: 1.与电老虎(电力),铁老大(...

  • 划分训练、测试集和数据观察

    训练集与测试集 一般在进行模型的测试时,我们会将数据分为训练集和测试集。在给定的样本空间中,拿出大部分样本作为训练...

  • 线性回归

    数据集分为训练数据和测试数据,训练数据用来训练模型参数,测试数据用来检验该模型的准确程度。 损失函数预测值与真实值...

  • K-Fold 交叉验证 (Cross-Validation)

    在机器学习建模过程中,通行的做法通常是将数据分为训练集和测试集。测试集是与训练独立的数据,完全不参与训练,用于最终...

  • 数据集拆分:训练集、验证集、测试集

    1、数据集拆分 首先最基本的是将数据集分为训练集(Training)与测试集(Test)两部分。在测试集用于训练、...

  • 数据集分割方法

    在机器学习建模过程中,通行的做法通常是将数据集分为训练集和测试集。测试集是与训练独立的数据,完全不参与训练,用于最...

  • 2018-12-12

    1.4模型评估与模型选择 1.4.1训练误差与测试误差 测试误差反映了学习方法对未知的测试数据集的预测能力,是学习...

  • 统计学习方法1.4-2.1 笔记

    1.4 模型评估与模型选择 训练误差与测试误差 关于模型的拟合好坏,计算训练集的训练误差进行衡量。关于模型预测的好...

网友评论

    本文标题:3. 训练与测试

    本文链接:https://www.haomeiwen.com/subject/rkzbcftx.html