美文网首页
机器学习——评估方法

机器学习——评估方法

作者: Anooyman | 来源:发表于2021-06-28 16:31 被阅读0次

留出法

将数据集 D 拆分为 训练集 S 和测试集 T

正常来说会保留 70% 用作训练,30% 用作测试。采样时采用分层采样(stratified sampling)的方法,即根据样本标签将数据进行分类之后按照对应比例抽取样本

一般来说会重复上述抽取训练测试的步骤 n 次,取最后的平均值当作模型的结果

缺点:取样随机性导致评估结果与模型最终的结果偏差可能会很大

交叉验证法

将数据集 D 拆分成 k 个相似并且互斥的子集,每个子集均通过分层采样得到。称之为 k 折交叉验证

保留其中一份作为测试集,剩余作为训练集。最后返回 k 次的平均值

一般会重复上述操作 n 次,称之为 n 次 k 折交叉验证。最后取这 n 次的均值作为模型的结果

特殊的交叉验证方法:留一法(Leave-One-Out, LOO)

假设数据集 D 中包含一共包含 n 个样本,留一法指的就是将 D 拆成 n 个子集,并继续进行交叉验证的剩余步骤。

优点:评估结果与最终的模型训练结果相似,较准确。

缺点:数据集大时,计算量大

自助法(Bootstrapping)

对有 n 个样本的数据集 D 进行有放回的抽取 n 次,得到新的数据集 D‘

得到的 D’ 中有重复数据,且 D 中不仅包含 D‘ 中所有数据,还存在未出现的数据。可以计算一个样本在 n 次采样过程中不被选取的概率为:\lim\limits_{n\to\infty} \left(1-\frac{1}{m}\right)^{m} \mapsto \frac{1}{e} \approx 0.368, 可以看到有大约36%的数据是不会被选入的。

此时将 D’ 作为训练集进行训练,D\D' 作为测试集(“\” 表示集合减法)。得到的测试结果称为包外估计(out-of-bag estimate)

该方法产生的数据集改变了原始数据集的分布,可能造成估计偏差。此方法适合于数据集较小、难以划分训练集和测试集时,例如应用于集成学习。在数据量充足的时候,应该选用留出法和交叉验证法。

相关文章

  • 机器学习评估方法

    机器学习的目的是产生泛化能力好的模型,那么什么样的模型才是泛化能力好的模型呢,这需要按照一定的评估方法和度量指标去...

  • 机器学习——评估方法

    留出法 将数据集 D 拆分为 训练集 S 和测试集 T 正常来说会保留 70% 用作训练,30% 用作测试。采样时...

  • 大师兄的Python机器学习笔记:数据重抽样

    大师兄的Python机器学习笔记:数据预处理大师兄的Python机器学习笔记:实现评估模型 一、重抽样方法 1. ...

  • 2018-03-13

    ## 机器学习评估系统 机器学习(ML),自然语言处理(NLP),信息检索(IR)等领域,评估(Evaluatio...

  • 机器学习(深度学习)常见面试题--基础知识篇

    1. 模型评估 在机器学习领域,模型评估至关重要,只有选择和问题相匹配的评估方法,才能更快更好的完成训练。将模型评...

  • Spark机器学习笔记

    Spark机器学习笔记 机器学习 机器学习是数据通过算法构建出模型并对模型进行评估,评估的性能如果达到要求就拿这个...

  • 【百面机器学习-模型评估】

    为什么需要模型评估? 在计算机科学特征时机器学习领域中,对模型的评估至关重要。只有选择与问题相匹配的评估方法...

  • 机器学习概述与算法介绍(二)

    机器学习概述 机器学习基本概念 机器学习基本流程与工作环节 机器学习中的评估指标 机器学习算法一览 3. 机器学习...

  • Lesson 13 - 多元线性回归

    概括 理解多重线性回归的应用 , 潜在问题和评估模型拟合的方法 , 是更复杂机器学习方法的核心 学习了如何在Pyt...

  • 误差与评估方法

    机器学习误差: 训练误差或者经验误差:学习器在训练集上的误差 泛化误差:在新样本上的误差 评估方法: ...

网友评论

      本文标题:机器学习——评估方法

      本文链接:https://www.haomeiwen.com/subject/cgnqultx.html