模型评估方法有:
留出法:需要划分训练集和测试集,常见做法是将大约2/3~4/5的样本用于训练,剩余样本用于测试。
交叉验证法:又称k折交叉验证,其实就是将数据集划分为k个大小相似的互斥子集,每个子集都尽可能保持数据分布的一致性,即从数据集中通过分层采样得到。然后每次用k-1个子集的并集作为训练集,剩下的作为测试集。最终返回的是这k个测试结果的均值。k一般取值为10或者5,20.与留出法相似,将数据集划分k个子集同样存在多种划分方式,为了减小样本划分不同而引入的差别,k折交叉验证通常要随机使用不同的划分重复p次,最终评估结果是这p次k折交叉验证结果的均值(个人理解:也就是k个值的均值一共有p个,再求这p个均值的均值得到最终结果)。常见的有10次10折交叉验证。
自助法:就是有放回抽样,将抽出来的样本作为训练集,再将其训练集的补集作为测试集。从理论上来说,样本在经过m次采样之后始终不被采到的概率为,取极限得到1/e,即约为0.368,这种测试结果也称为包外估计。自助法对数据集较小比较有效,但是其产生的数据改变了初始数据集的分布,这会导致引入估计偏差,因此数据量足够时优先考虑上述两种方法。
网友评论