美文网首页aboutDL
关于ML数据集的划分(关于验证集)

关于ML数据集的划分(关于验证集)

作者: madeirak | 来源:发表于2019-01-16 21:05 被阅读6次

    ML中数据集大致有两种划分:

    1、训练集、测试集

    2、训练集、验证集、测试集

    问题是监督机器学习的训练集包含标签,在反向传播(或其他优化器)时就可以学习各个权重。而测试集是用来测试模型的,那么验证集是用来干什么的呢?

    答:防止被测模型过拟合。

    第一种方法的流程是:在训练集上训练,在每次训练完后在测试集上测试后调整超参。这有一个潜在的问题就是基于给定测试集执行评估的次数越多,不知不觉地过拟合该测试集的风险就越高。从而造成测试结果和泛化结果差距很大。

    而第二种方法的流程大致是:在训练集上训练权重,在验证集上评估模型后修改模型(调整超参、增删特征等),获得最佳评估模型后在测试集上测试模型效果。最后的测试集是与被测试模型从未接触的数据,具有效的模型泛化能力测试性。

    第二种方法的流程图

    相关文章

      网友评论

        本文标题:关于ML数据集的划分(关于验证集)

        本文链接:https://www.haomeiwen.com/subject/sesvdqtx.html