参考书:周志华《机器学习》
第二章 模型评估与选择
Part1 训练误差与泛化误差
1.误差:模型的预测输出与真实输出的差异
2.训练误差:模型在训练集中的误差
3.泛化误差:模型在新数据上的误差
4.评估模型好坏的根本依据:泛化误差尽可能小
5.欠拟合:训练误差与泛化误差均很大,原因在于学习能力太弱,易于解决,可以扩展决策树分支或增加
6.过拟合:训练误差小,泛化误差大,原因在于学习能力太强,不易解决,无法避免,是机器学习面临的主要难题之一
Part2 评估方法
1.训练集与测试集不分的后果:极易产生过拟合,对模型的评估过于乐观
2.评估方法:从样例集D产生训练集S和测试集T的方法
3.留出法 :
(1)方法:直接将样例集D分拆为互斥的训练集S和测试集T
(2)缺点:训练集S和测试集T的样例数相互矛盾,导致训练和测试的信度相互矛盾,尤其在样例很少时
4.交叉验证法:
(1)方法:将样例集D分拆为k个大小相近的互斥子集,选取k-1个子集为训练集S,剩下的1个子集为测试集T,轮换训练k轮,参数取平均值
(2)缺点:计算量很大
5.自助法:
(1)方法:每次从样例集D中有放回地取1个数据,重复m次,作为训练集S,剩下的作为测试集T ,可以证明T至少占总数的36.8%
(2)缺点:会引入估计误差
6.评估方法的选择:样例数量小时,选择自助法,样例数量大时,选择留出法或交叉验证法 ,计算能力强时,选择交叉验证法,计算能力弱时,选择留出法
Part3 调参与验证集
1.调参:对算法参数进行设定
2.验证集:用于模型选择和调参的数据集 ,是从从训练集S中再分拆出来的
3.调参方法 :在参数变化范围内,按步长对参数取一系列值,分别训练,再从中选出最优模型
Part4 性能度量
1.性能度量:衡量模型泛化能力的评价标准
2.回归任务的性能度量 :均方误差
3.分类任务的性能度量 :
(1)错误率E:分类错误的加权总次数/样本数
(2)精度acc:1-错误率
(3)真正例TP,真反例TN,假正例FP,假反例FN
(4)查准率P=TP/(TP+FP)
(5)查全率N=TP/(TP+FN)
(6)F1度量:查准率P与查全率R相互矛盾,为了综合评价一个模型的泛化能力 ,构造F1 =2PR/(P+R),F1越低,代表模型的泛化能力越好
(7)度量:有时查准率P与查全率R的侧重不一样,通过引入参数 来调节,
4.比较检验 :
(1)目的:由于同一模型在不同测试集中或者同一数据集的不同测试中得到的性能度量指标可能不同,因此比较两个模型的泛化能力需要从统计学上考虑
(2)方法:假设检验
5.偏差与方差的分离:偏差 代表系统误差,方差代表随机误差,二者的分离对于深入理解误差产生的根源有重要意义
网友评论