1. 过拟合和欠拟合
过拟合:
一个训练集产生的模型在训练数据上表现良好,但对新数据的泛化能力却很差。
欠拟合:
一个训练集产生的模型在训练数据上表现不良,模型需要不断完善。
2. 数据划分方式
可划分为三个数据集:
①建立模型的数据集
②在训练好的模型上选择的验证集
③判断最终模型的测试集
3. 正确性
3.1 预测模型
| 真 | 假
----|--|----
预测为真 | 真阳性 | 假阳性
预测为假| 假阴性 | 真阴性
3.2 度量方法
查准率
预测正确占所有预测的百分比
查全率
预测正确占所有正确的百分比
F1得分
2*查准率*查全率/(查全率+查准率)
4. 偏倚和方差
①高偏倚,低方差 =》对应少特征值拟合(欠拟合)
解决:适当增加特征值
②低偏倚,高方差 =》对应多特征值拟合(过拟合)
解决:适当减少特征值
增加数据量可大大减少过拟合问题
网友评论