过拟合和欠拟合的概念
在这里插入图片描述
模型复杂的原因:数据的特征和目标值之间的关系不仅仅是线性关系
欠拟合的原因:学习到数据的特征过少
解决办法:增加数据的特征数量
过拟合的原因:原始特征过多,存在一些嘈杂特征,模型过于复杂是因为模型尝试去兼顾各个测试数据点
解决办法:
- 进行特征选择,消除关联性大的特征(很难做)
- 进行交叉验证(进行检验,而不是消除。让所有数据都有过训练)
- 正则化
根据结果现象来判断过拟合和欠拟合
- 交叉验证
- 训练集结果欠拟合表现不行;过拟合表现好
- 测试集:欠拟合表现不行;过拟合表现不行
回归解决过拟合:L2正则化
作用:可以使得W的每个元素(特征值的权重)都很小,都接近于0,通过调试,使得某些特征的w(权重,即系数)特别小,从而简化减小其对模型的影响,消除过拟合
优点:越小的参数说明模型越简单,越简单的模型则越不
容易产生过拟合现象
L2正则化:Ridge:岭回归 带有正则化的线性回归 解决过拟合
网友评论