Holdout检验 :是最简单直接的检验方法,它将原始样本数据集随机划分成训练集和测试集。
缺点就是不能保证训练集以及测试集划分的无偏性。
交叉验证:为了消除Holdout的随机性,则有了交叉验证。
自助法:Holdout和交叉验证都是基于数据集的划分,但是当样本规模较小时,将样本集进行划分会让训练集进一步减小,可能影响模型的训练效果。自助法是基于自助采样的检验方法,对于总数为的样本集合,有放回地随机抽样次,得到大小为的训练集。其中有的样本会重复,有的样本没有被抽出过,将没有被抽出的样本作为验证集进行验证,就是自助法的验证过程。
当样本很大的时候,大约有的样本是没有被采样过。
网友评论