评估是数据挖掘能否取得真正进展的关键一环。
训练和测试
对于分类问题,自然采用误差率来衡量一个分类器的性能,为了能预测一个分类器在新数据上的性能表现,需要一组没有参与训练的单独数据,并在次数据集上评估分类器的误差率,这组数据集叫做测试集。
注:测试数据不能以任何方式参与分类器的构建
预测性能-置信区间
对于一个抛硬币问题,抛100次正面有75次和抛1000次正面有750次,如何衡量正确率p。这个问题答案通常被表达为一个置信区间,即真实正确率p以某个特定的置信度存在于某个特定的区间中。如在置信度为80%左右,抛100次的正确率正在69.1%和80.1%之间,抛1000次正确率在73.2%和76.7%之间,由此课件抛1000次更有效。
对于置信区间的具体计算方法见概率论
交叉验证(重要)
现考虑当训练和测试数据数量有限时该如何处理。采用旁置法可解决一部分问题(旁置的数据用来测试,其他用于训练),但旁置的数据具有随机性,有时并不显著,所以普遍使用
重复旁置法:每次迭代时,随机抽取一个特定比例的数据进行训练,剩余的用于测试,将每次不同迭代过程中所得的误差率求平均得到综合误差率。
此外,旁置所选数据有时显著性不大,所以采用分层旁置,即将数据分层化,每次旁置从不同层次抽取一定量数据,可以提高数据间的显著性差异。结合上述两个方法可以得到分层交叉验证方法
交叉验证:首先要决定一个固定的折数,这是决定数据分的份数,如3折即将数据分成3等分,每一等分重复作为测试集,其他作为训练集,最后计算综合误差率。
10折分层交叉验证:这是普遍所采用的误差估计方法。
网友评论