机器学习误差:
训练误差或者经验误差:学习器在训练集上的误差
泛化误差:在新样本上的误差
评估方法:
留出法:直接将数据集分为互斥的集合,一个作为训练集一个作为测试集。
①训练和测试集的划分要尽可能保持数据分布的一致性
②单次使用留出法得到的估计结果往往不够稳定可靠
交叉验证法(k折交叉验证):将数据集划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布一致性,然后每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集,进行k次训练和测试。
①与留出法相似,存在多种划分方式,通常需要随机使用不同的划分重复p次求均值
留一法:若样本m个,划分k=m次,则得到了交叉验证法的一个特例。
①留一法训练出的模型和整个数据集训练出来的模型很相似,评估结果往往被认为较准确
②留一法开销特别大
自助法:随机从数据集D中采样m次(重复采样),得到m个数据的数据集作为训练集,剩下的作为测试集
①减少训练样本规模不同造成的影响,同时还能比较高效地进行实验估计(why?)
②自助法在数据集较小、难以有效划分训练和测试集时很有用
③自助法产生的数据集改变了初始数据集的分布,引入了估计偏差。在初始数据量足够时,留出法和交叉验证法更常用一些。
网友评论