美文网首页
机器学习—交叉验证

机器学习—交叉验证

作者: hwang_zhic | 来源:发表于2019-01-20 21:38 被阅读0次

1、经验误差与过拟合

    通常我们把分类错误的样本数占样本总数的比例称为"错误率”,学习器在训练集上的误差称为“经验误差”或“训练误差”,在新样本上的误差称为“泛化误差”。我们需要的是泛化误差低的学习器,但是我们只能习得一个经验误差很小、在训练集上表现很好的学习器。然而,如果学习器把训练样本的自身的一些特点当做了所有潜在样本都具有的一般性质,会导致泛化性能下降,这称为“过拟合”,相对的“欠拟合”是指对样本的一般性质未学好。

    过拟合通常是由于学习能力过于强大,而欠拟合则相反。不过欠拟合比较容易客服,但是过拟合就很麻烦。过拟合是无法彻底避免的,能做的只有在一些算法中进行相关的“缓解”操作。


2、评估方法

    通常我们通过实验测试对学习器的泛化误差进行评估并进而做出选择,因此需要一个“测试集”,以测试集上的“测试误差”作为泛化误差的近似值。所以我们假设测试样本也是从样本真实分布中独立同分布采样而得,需要注意的是测试集要尽可能与训练集互斥。

    交叉验证法,把数据集分成k个大小相似的互斥子集,每个子集尽可能数据分布一致。然后每次把k-1个子集当成训练集,剩下一个当成测试集,从而可以进行k次训练和测试,最终返回k次结果的均值。k折交叉验证通常要随机使用不同的划分重复p次,最终的评估结果是这p次k折交叉验证结果的均值。常见的有10次10折交叉验证。

相关文章

  • 饭店流量预测

    lightgbm 模型 修改参数 交叉验证 【机器学习】Cross-Validation(交叉验证)详解. 在机器...

  • 机器学习笔记(一)——交叉验证

    交叉验证问题 什么是交叉验证     交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证,顾名思义,...

  • 机器学习—交叉验证

    1、经验误差与过拟合 通常我们把分类错误的样本数占样本总数的比例称为"错误率”,学习器在训练集上的误差称为“经...

  • 如何进行变量筛选和特征选择(三)?交叉验证

    01 模型简介 交叉验证是机器学习中常用的一种验证和选择模型的方法,常用的交叉验证方法是K折交叉验证。将原始数据...

  • R 交叉验证①

    什么是交叉验证?在机器学习中,交叉验证是一种重新采样的方法,用于模型评估,以避免在同一数据集上测试模型。交叉验证的...

  • 交叉验证

    交叉验证是在机器学习建立模型和验证模型参数时常用的办法。交叉验证,顾名思义,就是重复的使用数据,把得到的样本数据进...

  • 算法工程师面试

    1、编程语言 2、基本算法 3、传统的机器学习算法 4、常见机器学习问题 过拟合问题、交叉验证问题、模型融合、...

  • 机器学习中的交叉验证

    交叉验证是一种通过估计模型的泛化误差,从而进行模型选择的方法。没有任何假定前提,具有应用的普遍性,操作简便, 是一...

  • 机器学习算法之交叉验证

    我们一般解决机器学习问题的步骤如下:1.拿到数据集,对数据集进行清洗。数据集清洗一般包括以下几个方面:重复值处理,...

  • Python机器学习之交叉验证

    交叉验证是一种非常常用的对于模型泛化能力进行评估 方法,交叉验证既可以解决数据集的数据量不够大问题,也可以解决参数...

网友评论

      本文标题:机器学习—交叉验证

      本文链接:https://www.haomeiwen.com/subject/aghxnftx.html