模型评估
训练集和测试集划分
- 留出法:直接将数据划分为两个互斥的,注意保持在训练集和测试集要保证数据分布和原始数据集一样,黑白样本等label也要分布一致。一般留2/3到4/5作为训练集。由于划分方式很多,所以可以进行多次划分,多次训练测试,把得到的结果均值作为最终结果。
- 交叉验证法:将数据集分成k个大小相等,数据分布一致的样本,然后每次取其中一个为测试集,其余为训练集,这样可以得到k次训练和测试结果,所以也叫k折交叉验证法。同样划分方式很多,所以可以进行多次划分,多次训练测试,把得到的结果均值作为最终结果。最终是p次k折交叉验证法。
- 自助法:采取多次随机从数据集抽取样本放到训练集,然后又把样本放回。重复m次之后,就有约36.8%的样本不在训练集里面。然后我们这些不在训练集的样本拿来做测试集,这样出来的评估结果,叫“包外估计”。
该如何选用划分方式呢?
自助法优点是可以从小数据集产生无限的样本,所以在数据集比较小的时候特别有效,但由于自助法是使用随机抽取的方式,假设了每个样本在空间出现的概率是一样的,这改变了原始数据集的分布,会引入估计偏差。通常应该考虑留出法和交叉验证法。
模型泛化能力评估
回归任务常用的是均方误差(预测值和真实值的差的平方/样本数),更一般的公式,可以用数据分布和概率密度函数表示,使用积分评估。
分类任务评估
- 错误率:分类错误的样本数/样本数
- 精度:分类正确的样本数/样本数
- 查准率P(准确率):正正/(正正+反正),第一正反表示真实情况,第二个正反表示预测情况。
- 查全率R(覆盖率,召回率):正正/(正正+正反),不依赖样本正反比例
- 误伤率:反正/(反正+反反),不依赖样本正反比例
- P-R曲线:一般来说查准率和查全率是矛盾的曲线,以查全率为x轴,查准率为y轴,做出来的曲线。一般来说被包住的曲线要劣于包住的曲线。但有一个平衡点可以作为衡量标准,叫BEP。
- F1度量:基于查准率P和查全率R的调和平均,1/F1=(1/2)(1/P+1/R),更一般是公式是:1/F=(1/(1+w2))(1/P+w2/R),w=1就是F1,w>1查全率有更大影响,w<1查准率有更大影响。
由于多次输入样本评估,我们对模型评估多次,得到可能是多个二分类混淆矩阵,这种情况我们改如何评估?
- 宏:先对每个评估结果算出查全率,查准率,F1等,然后再取结果的均值,
- 微:对混淆矩阵的对应元素进行取均值,再算查全率,查准率,F1。
回归分类
先对样本评估的结果进行排序,然后选择一个截断点作为黑白分割点。
- 真正率:正正/(正正+正反)
- 假正率:反正/(反反+反正)
- ROC:以每个截断点结果做成一个平面点,以误伤率为x轴,以查全率为y轴。一般来说被包住的曲线要劣于包住的曲线。不然就以AUC评估。
- AUC:为ROC曲线下面的面积,AUC考虑的是样本排序的质量,因此它与排序误差有关系,也就是模型对样本的预估结果导致了样本发生了排序。AUC就是来评估这种结果的指标。
有错误代价的情况(加上cost计算,todo):
为衡量不同的错误对结果影响的不同,我们会对不同类型错误赋予不同代价。
- 代价敏感错误率
- 代价敏感曲线
模型比较检验(todo)
统计检验假设,若在测试集上学习器A优于B,则在统计意义上A的泛化是否就好过B,这种优的程度有多大,就需要用统计检验假设来评估。
- 假设检验
- 交叉验证t检验
- McNemar检验
- Friedman检验
- Nemenyi后续检验
偏差和方差
泛化误差是偏差,方差,噪声之和
假设:对于样本x,yD为x在数据集中的标记,y为x的真实标记,f为模型的预测输出,模型的期望输出是o。
那么什么叫期望输出?
期望输出是在数据集真实分布下,模型训练后,预测x样本应该输出的值。但在不同训练集训练出来的模型,x的预测输出可能都不一样。
- 方差:f与o的差值的平方,表示的是模型本身使用了同样的大小的训练集变动导致学习性能的变化,从而产生的误差。刻画了数据扰动所造成的影响。
- 噪声:yD与y的差值的平方,表示数据集本身和真实情况的误差。表达了在当前任务上使用该数据集的任何学习算法所能达到的期望泛化误差下界,刻画了学习问题本身的难度。
- 偏差:o与y的差值的平方,表示学习算法期望预期理论的输出和真实结果的误差。刻画了学习算法本身的拟合能力。
偏差-方差窘境
在给定数据集和任务情况下,我们能做的就是减少偏差:充分拟合数据,使方差减少:数据扰动产生影响小。
但偏差和方差往往比较矛盾,学习器的拟合能力更强,训练集的数据扰动就更容易被学习到,导致方差主导泛化错误率。会造成过拟合。如果拟合能力不强,则学习效果就不好。
网友评论