Validation主要是用来:1. 选择model类型;2. 选择该model超参数;3. 进行Feature Engs的指导。所以我们希望Validation方法能尽可能的准确,精准,能体现真是的评估结果。所以Validation并不是用来训练model的,而是更像一个指标,告诉我们model训练的方向。
那么为什么要有不同的validation类型呢(比如Cross Validation)?
因为当数据集过小,数据过少时,我们所谓“随机”分出的Validation set很容易有噪音,因为数据量过少,从而可能导致Validation这个“指标”不准,甚至很不准,那么当我们用这个不准的validation指标来指导我们训练model时,当然效果是不会好的。所以我们在面对小数据集时,想出了用cross validation的方法,这样所有的数据都做过训练集,也都做过验证集,噪音会减少很多,指标的准确度也会有所提高。
网友评论