美文网首页
数据集的划分

数据集的划分

作者: 大龙10 | 来源:发表于2023-12-02 05:45 被阅读0次

书名:计算机视觉40例从入门到深度学习:OpenCV-Python
作者:李立宗
出版社:电子工业出版社
出版时间:2022-07-01
ISBN:9787121436857


第15章 机器学习导读

15.2 机器学习基础概念

15.2.3 数据集的划分

图15-13 练习题划分

一、数据集划分

  • 很多计算机内使用的算法是人们借用的在实践中广泛应用的规律,机器学习也一样。
  • 机器学习使用已知数据时,通常将数据集划分为训练数据、测试数据、验证数据三部分,其基本含义分别为如下。
    • 训练数据:
      又称训练集,是训练模型时使用的数据。
    • 测试数据:
      又称测试集,是学得的模型在实际使用中用到的数据。
    • 验证数据:
      又称验证集,是在评估与选择模型时使用的数据。

二、模型评估与选择

  • 模型评估与选择主要是进一步确定算法使用的参数,在机器学习中有两类,分别是
    • 算法参数:
      又称超参数,该参数是模型的外部设置,如K近邻算法中使用的K值。该参数由人工确定,常说的“调参”是指对算法参数进行调整。
    • 模型参数:
      模型使用的参数,如神经网络中的权重值,该参数是通过学习过程习得的。

三、训练过程和测试过程

  • 验证数据不是必需的,通常情况下,机器学习过程可能只有训练过程和测试过程。
  • 下文以只有训练过程和测试过程的机器学习过程为例介绍如何更有效地利用数据。
1、留存法
  • 将整体数据划分为不同部分的方法称为留存法。
    在这种方法中,训练过程使用大部分数据,测试过程使用小部分数据。这会导致误差仅在很少一部分数据上体现出来。
  • 比较理想的情况是,训练过程、测试过程都能够使用所有数据。
2、交叉验证
  • 可以通过交叉验证的方式达到使用所有数据的效果。
    该方法把所有数据划分为k个互斥的子集,让每个子集尽量保持数据分布的一致性。
    每次使用k-1个子集进行训练,余下的子集进行测试。
    重复上述过程,确保训练过程和测试过程都能够使用所有数据。
    k常用的取值为5、10、20等。
3、示例
  • 例如,在图15-14中,原始数据集被划分为五个子集,标记为A~E。
    第一轮交叉验证中,在A~D子集上进行训练、在E子集上进行测试。
    在第二轮交叉验证中,在A子集、B子集、C子集、E子集上进行训练,在D子集上进行测试。
    依次类推,完成五轮交叉验证。
    与在单一模型上进行测试相比,交叉验证能够提供更准确的结果。


    图15-14 交叉验证示意图

相关文章

  • sklearn数据集的获取与划分

    划分数据集 获取sklearn本地的数据集 描述iris数据集 从网络获取数据集 网络获取 划分训练集和测试集 数...

  • 决策树(二)

    划分数据集 分类算法除了需要测量信息熵,还需要划分数据集,度量花费数据集的熵,以便判断当前是否正确地划分了数据集。...

  • 2018-04-25 第五周

    本周任务:按照标准的数据集划分,即训练集:2 测试集:1的比例划分数据,测试模型效果。 首先,划分...

  • 决策树算法

    原理 通过选择最好的特征来划分数据集,对数据子集继续划分,直到数据子集中是相同的类别;划分数据集的特征可以通过计算...

  • 数据集的划分&更改评估指标

    数据集划分为 训练集 开发集(交叉验证集) 测试集,最大化团队效率。 如何划分 将所有的数据随机洗牌,放入交叉验证...

  • 数据集划分

    常用方法:(1)简单分离训练集和测试集,(2)K折交叉验证分离1.最简单分离测试集和测试集:train_test_...

  • 数据集划分

    看了几个大佬的数据集划分总觉得有些可能是后期进行过修改的,于是决定先用最简单的数据集划分方式,如下图: (修改:所...

  • 模型评估与选择

    1. 数据集划分 1.1 留出法(hold - out):直接将数据集D划分成两个互斥的集合,训练集S、测试集T,...

  • 数据集的划分

    数据集的划分 因为sqoop是将数据的迁移任务转化为相应的Haoop任务的,Hadoop任务是数据集划分的,即每个...

  • 数据集的划分

    Holdout检验 按一定比例划分为训练集和测试集这种方法也称为保留法。我们通常取8-2、7-3、6-4、5-5比...

网友评论

      本文标题:数据集的划分

      本文链接:https://www.haomeiwen.com/subject/clazwdtx.html