不要考虑测试数据, 只考虑训练数据.
模型的复杂度与拟合度模型的复杂度对应了模型对训练集的拟合度, 模型越复杂, 拟合度越高.
对于训练误差(训练出的模型对训练集的预测):
- 当模型复杂度低(图1.1)
- 决策边界简单, 划分的同类点稠密, 方差低;
- 训练集的实际值与真实值偏离大, 偏差高.
- (欠拟合, 部分信息未被拟合)
- 当模型复杂度高(图1.3)
- 决策边界复杂, 划分的同类点稀疏, 方差高;
- 训练集的实际值与真实值偏离小, 偏差低.
- (过拟合, 拟合了噪声)
- 横轴为(训练集拟合的)模型的复杂度, 纵轴为误差(褐色为训练数据的偏差, 青色为训练数据的方差, 黑色为测试误差. 训练误差与训练数据的偏差是一致的).
- 随着模型的复杂度升高, (训练集)偏差逐步降低, (训练集)方差逐步升高; (测试集)测试误差先降低, 后升高.
- Error = Bias^2 + Variance + noise (测试集误差 = 训练集偏差的平方 + 训练集方差 + 测试集噪声)
- 当模型的复杂度较低时, 偏差占(测试)误差的主导地位, 需要降低偏差, 即增加模型的复杂度.
-
当模型的复杂度较高时, 方差占(测试)误差的主导地位, 需要降低方差, 即降低模型的复杂度.
偏差-方差的定义
圆盘上, 中心的红环对应着真实的值, 蓝色的点对应着预测的值.
- 高方差, 低偏差意味着划分的同类点稀疏, 划分边界复杂, 模型过拟合训练集, 模型复杂度高.
- 方差衡量了模型输出的离散程度.
- 低方差, 高偏差意味着划分的同类点稠密, 划分边界简单, 模型欠拟合训练集, 模型复杂度低.
- 偏差衡量了模型输出与真实值的偏离程度.
而我们期望的模型为图1.2, 图2中测试误差最小值, 即偏差-方差的权衡.
网友评论