机器学习: 数据与过拟合

作者: 写代码的海怪 | 来源:发表于2019-02-22 01:53 被阅读84次

机器学习里的回归函数就是通过不断去拟合数据集里的数据来生成的,如果太简单会出现偏差,太复杂又会出现过拟合现象。

过拟合

下面就是一个过拟合的例子。

这个数据集的回归函数可能用一次函数会更合理一些。

欠拟合与过拟合对比

过拟合 (Overfitting) 的相反就是欠拟合 (Underfitting),下面给出两个拟合的错误率对比曲线。

欠拟合没什么好说的,随着拟合函数复杂度提高,误差肯定下降。而过拟合在较为复杂的情况下对于原始数据集里的数据预测趋于 100% 正确,因为这个时候拟合函数是完全连通数据集里的所有数据的。

数据分类

注意,这里说的分类不是指分类器里的分类,而是将训练数据分成不同类来测量拟合函数的优劣。

分成训练数据和测试数据

这可能是入门机器学习的第一想法了,数据集除了训练就是测试。

这种方法的好处在于:

  • 通过训练数据测出机器学习算法的哪个参数值最好

  • 通过测试数据评判哪个算法性能更好

校验数据

第三种方法是将一部分的训练数据作为校验数据,这些校验数据是专门用来测量模型的拟合程度的。

这种方法也有自己的缺点:

  • 会浪费掉一些训练数据,毕竟分走了一部分

  • 会让模型趋于简单化,因为有校验数据的存在,会一直去防止过拟合

交叉检验

一种更好的数据集分类是每次都从训练数据里拿不同的数据作为校验数据,最后再做一下平均值来测量结果即可。

上图是做了 4 次校验,每次都取不同的校验数据。当然多少次校验也是个问题,少了训练数据会变少,多了又会有一些 Noise。一般 5 ~ 10 次是最好的。

相关文章

  • 机器学习: 数据与过拟合

    机器学习里的回归函数就是通过不断去拟合数据集里的数据来生成的,如果太简单会出现偏差,太复杂又会出现过拟合现象。 过...

  • 机器学习中的L0、L1、L2正则化

    过拟合 过拟合问题在机器学习中是一个经常遇到的问题,所谓过拟合,即模型过度地拟合了训练数据,从而导致模型在训练数据...

  • 学习笔记

    机器学习理论基础 来自《scikit-learn机器学习》 过拟合和欠拟合 过拟合是指模型能很好的拟合训练样本,但...

  • 62-R语言防止过拟合训练神经网络模型

    1、过拟合问题概述 机器学习的一个陷阱是,越复杂的数据越有可能过拟合训练数据,因此,对相同数据训练模型的性能评价会...

  • 欠拟合和过度拟合

    定义: 废话不说,先上图 如果有一群数据集,中间为比较合适的拟合曲线。左端为欠拟合,右端为过拟合。 机器学习,学习...

  • [Deep-Learning-with-Python]机器学习基

    机器学习类型 机器学习模型评估步骤 深度学习数据准备 特征工程 过拟合 解决机器学习问题的一般性流程 机器学习四分...

  • 14 ML/DL重要基础概念:偏差和方差

    0 前言 在机器学习中,过拟合和欠拟合都会使训练好的机器学习模型在真实的数据中出现错误。我们可以将错误分为偏差(B...

  • 机器学习第六课_其他几个重要概念

    1、偏差和方差 在机器学习中,过拟合和欠拟合都会使训练好的机器学习模型在真实的数据中出现错误。我们可以将错误分为偏...

  • 机器学习中的偏差和方差

    1、定义 在机器学习中,过拟合和欠拟合都会使训练好的机器学习模型在真实的数据中出现错误。我们将错误分为偏差和方差两...

  • 学习笔记----机器学习(六)

    机器学习基础理论 模型过拟合和模型欠拟合 过拟合Under Fitting(高方差high bias ) ----...

网友评论

    本文标题:机器学习: 数据与过拟合

    本文链接:https://www.haomeiwen.com/subject/hywteqtx.html