美文网首页aboutDL
关于ML数据集的划分(关于验证集)

关于ML数据集的划分(关于验证集)

作者: madeirak | 来源:发表于2019-01-16 21:05 被阅读6次

ML中数据集大致有两种划分:

1、训练集、测试集

2、训练集、验证集、测试集

问题是监督机器学习的训练集包含标签,在反向传播(或其他优化器)时就可以学习各个权重。而测试集是用来测试模型的,那么验证集是用来干什么的呢?

答:防止被测模型过拟合。

第一种方法的流程是:在训练集上训练,在每次训练完后在测试集上测试后调整超参。这有一个潜在的问题就是基于给定测试集执行评估的次数越多,不知不觉地过拟合该测试集的风险就越高。从而造成测试结果和泛化结果差距很大。

而第二种方法的流程大致是:在训练集上训练权重,在验证集上评估模型后修改模型(调整超参、增删特征等),获得最佳评估模型后在测试集上测试模型效果。最后的测试集是与被测试模型从未接触的数据,具有效的模型泛化能力测试性。

第二种方法的流程图

相关文章

网友评论

    本文标题:关于ML数据集的划分(关于验证集)

    本文链接:https://www.haomeiwen.com/subject/sesvdqtx.html