1.过拟合
过拟合可能使得模型对已知样本非常准确,而对新样本效果并不理想,或者说模型的泛化能力较弱。
overfiting vs underfitting而泛化能力是机器学习关注的一个重要标准,但又无法直接评价(模型在新样本上的效果如何、泛华误差是否足够小)。故引申出一系列的模型选择方法——验证集、交叉验证等等。
image.png2.评估方法
2.1数据集的划分
(1)留出法
即将已知样本划分成两部分,约2/3 到 4/5 作为 训练样本,剩余部分作为测试样本,且最好保持两部分的正负例比例一致。
另外,测试样本至少需要30个样例。
(2)交叉验证法 cross validation
cross validation为避免划分不同带来的误差,可能会进行多次k折交叉验证,如10次10折交叉验证——即训练了100次。
若k = 样本个数,即每次训练只留一个样本作为验证,是交叉验证中的特例,留一法(Leave one out)。
留一法有好处,但在数据量较大的情况下,其计算成本非常高。
(3)bootstrapping 译为自助法
从已知样本D中,做放回抽样,产生一个样本量与已知样本量相同的训练集D’进行训练,而用D/D'进行测试。
这样,训练集与期望的训练集(D)大小一致,但因训练集D'有重复的样本,会造成一定的估计误差。
在样本量较小、难以有效划分训练\测试集时,采用bootstrapping 会比较有效
(4)调参
这部分未详细展开,且没完全看懂。
3.性能度量(效果评价)
performance measure
(1)错误率与精度
错误率与精度(2)查准率(precision)、查全率(recall)与F1
有时任务的目标不仅取决于错误率或精度,比如衡量筛选出正例正确的比例、有多少正例被选出等等。此里就需要用其它指标来评价模型。
PR曲线:以查全率为横轴,查准率为纵轴汇制的曲线。
F1 = 2PR/(P+R)
F1 还可以衍生出通用公式,加入一个参数,通过参数大小来调节对查准率、查全率的要求。
(3)ROC 与 AUC
这部分在之前学习总结的另一篇文章里也有。这里按书中情况总结。
很多模型会给每个预测样例输出一个实值或概率预测,对应的会有一个排序,而预测分类会取一个阈值,大于阈值则视为正例、小于则视为负例。这个排序本身质量的好坏体现了机器学习模型的性能。ROC即是从这个角度出发来研究模型性能的好坏。
ROC ,受试者工作特征(Receiver Operating Characteristic)
网友评论