3.1.3模型检验

作者: idatadesign | 来源:发表于2017-12-02 18:13 被阅读16次

3.1.3模型检验

仅仅使用默认配置的模型与不经处理的数据特征,在大多数任务下是无法得到最佳性能表现的。因此,在最终交由测试集进行性能评估之前,我们自然希望可以尽可能利用手头现有的数据对模型进行调优,甚至可以粗略地估计测试结果。
在这里需要强调的是:尽管本书在许多章节中所使用的测试数据是由我们从原始数据中采样而来,并且多数知晓测试的正确结果;但是这仅仅是为了学习和模拟的需要。一些初学者因此经常拿着测试集的正确结果反复调优模型与特征,从而可以发现在测试集上表现最佳的模型配置和特征组合。这是极其错误的行为!
因此我们要充分使用现有数据,通常的做法是对现有数据进行采样分割:一部分用于模型参数训练,叫做训练集;另一部分数据集合用于调优模型配置和特征选择,并且对未知的测试性能做出估计,叫做开发集或者验证集,根据验证流程复杂度的不同,模型检验方式分为留一验证与交叉验证。

3.1.3.1留一验证

留一验证是从任务提供的数据中,随机采样一定比例作为训练集,剩下的“留做”验证。通常,我们取这个比例为7:3,即70%作为训练集,剩下的30%作为模型验证。不过,通过这一验证方法优化的模型性能也不稳定,原因在于对验证集合随机采样的不确定性。因此,这一方法被使用在计算能力较弱,而相对数据规模较大的机器学习发展的早期。当我们拥有足够的计算资源之后,这一验证方法进化成为更加高级的版本:交叉验证。

3.1.3.2交叉验证

交叉验证可以理解为从事了多次留一验证的过程。只是需要强调的是,每次检验所使用的验证集之间是互斥的,并且要保证每一条可用数据都被模型验证过。因此,就以5折交叉验证为例。

全部可用数据被随机分割为平均数量的5组,每次迭代都选取其中的1组数据作为验证集,其他4组作为训练集。
交叉验证的好处在于,可以保证所有数据都有被训练和验证的机会,也尽最大可能让优化的模型性能表现得更加可信。

相关文章

  • 3.1.3模型检验

    3.1.3模型检验 仅仅使用默认配置的模型与不经处理的数据特征,在大多数任务下是无法得到最佳性能表现的。因此,在最...

  • STATA技巧收集

    1、数据处理 2、统计模型 3、模型检验 如何用 Stata 做调节中介效应检验? 4、图形绘制

  • 空间计量的检验LM

    LM检验 本检验的目的就是判断各变量是否具有空间分布属性,模型是否有必要用空间计量模型,该检验是与混合OLS对比。...

  • ThinkPHP 多对多关联模型遇到问题

    在学习ThinkPHP3.1.3后盾网视频教程的的时候。多对多关联模型遇到问题。 查询语句:$result = D...

  • 这是一份直接就能上手操作的eviews上机指南----回归模型诊

    通常使用最小二乘法建立回归模型之后,需要检验模型的异方差性,自相关性,多重共线性,并对检验结果进行修正。这三个检验...

  • 分类学习器的构建

    目录 变量选择 变量筛选 模型选择 变量预处理 模型设计和训练 模型优化 模型检验 1、特征选择 在NLP模型、机...

  • 学习汇总

    python python假设检验(很全):python假设检验统计功能包:scipy 统计模型包:statsmo...

  • Hypothesis test

    参数检验与非参数检验 参数检验即检验模型是基于数据符合或具有某种特征,如t.test即要求数据符合正态分布,而非参...

  • 02-单因素和双因素方差分析

    1.单因素方差分析 1.1 正态性检验 1.2 方差齐性检验 1.3 单因素ANOVA 1.4 诊断模型(残差检验...

  • 时间序列-建模步骤

    建立时间序列模型通常包括三个步骤: 模型的识别 模型参数的估计 模型的诊断与检验 一、模型的识别 ARMA过程的...

网友评论

    本文标题:3.1.3模型检验

    本文链接:https://www.haomeiwen.com/subject/jronbxtx.html