序
面试过程中经常会被问到关于方差和偏差的概念以及比对。
偏差
偏差度量了学习算法的期望预测值与真实结果间的偏离程度,也就是刻画了模型本身的拟合能力,也就是偏差越大,意味着预测值越偏离真实数据。
高偏差
最直观的感受就是,如果训练误差很大,测试误差与训练误差相当,那么此时表明模型对训练数据的拟合并不是很好,这就是高偏差。
方差
方差刻画了同样大小训练集的变动所导致的学习性能的变化,即刻画了数据扰动所造成的影响。说白了就是对预测值方差的描述,方差越大,则数据的分布越分散。
高方差
如果训练误差远高于测试误差,那么说明模型过拟合,此时表明模型的方差较高;
上述所指的模型误差是相对的,例如,人类肉眼识别猫狗的误差若在0.5%左右的话,那么我们的模型误差在其附近是合理的,因此,对于这种相对的误差而言,将其称作是先验知识,也就是贝叶斯误差。
偏差方差不可同求
偏差和方差不能同时满足。
在模型训练初期,由于迭代轮数较小,此时算法未能完全学习到训练集数据的内容,因此,此时模型的泛华错误率主要来自偏差,而随着轮数不断加深,算法完全拟合了训练集,学习到了训练集数据的波动规律,此时主要泛化错误率来自于方差。而再随着迭代的加深,训练数据的非全局性,非代表性的规律被学习到后,此时发生一点数据波动,模型都会被严重影响,此时可能发生了过拟合。
噪声
刻画了任何一种学习算法在该数据集上所能达到的期望泛化误差的下界,也就是刻画了学习问题本身的难度。
泛化性能与上述指标的关系
其实上述是指标共同构成的是泛化性能的大小,也就是说,泛化性能是由该算法的能力、数据的好坏以及学习任务本身的难度所共同决定的。给定一个学习任务,为了取得较好的泛化性能,需使得偏差较小,即能够充分拟合数据,同时要使得方差较小,也就是数据扰动带来的影响尽量小。
网友评论