理解机器学习中的偏差与方差
https://blog.csdn.net/simple_the_best/article/details/71167786
偏差与方差的均衡
最优模型的问题基本上可以看成是寻找方差和偏差的平衡点。
对于给定数据,模型被认为对数据欠拟合,也就是说模型没有足够的灵活性来适应数据的所有特征。另一种说法就是模型具有高偏差。
同样给定数据,模型几乎完美的适应了所有数据的特征,与其说是十分准确地描述了训练数据,不如说是模型过多的学习了数据的噪音,而不是数据的本质属性。这样的模型被认为是对数据过拟合。
也就是说模型在适应了数据所有特征的同时,也适应了随机误差。另一种说法就是模型具有高方差。
判定系数R²
用来衡量模型与目标值均值的对比结果。
R²=1表示模型与数据完全吻合;
R²=0表示模型不比简单取均值好;
R²<0表示模型性能很差。
一般有如下规则:
对于高偏差模型,模型在验证集和训练集表现类似;
对于高方差模型,模型在验证集表现远不如训练集表现。
验证曲线
验证曲线和学习曲线的区别是,横轴为某个超参数的一系列值,由此来看不同参数设置下模型的准确率,而不是不同训练集大小下的准确率。
从验证曲线上可以看到随着超参数设置的改变,模型可能从欠拟合到合适再到过拟合的过程,进而选择一个合适的设置,来提高模型的性能。
需要明确的是,训练得分总是比验证得分要高,训练的分随着模型复杂度的提升而单调递增,验证得分增长到最高点后由于过拟合而开始骤降。
学习曲线
反应训练集规模的训练得分 / 验证得分曲线称为学习曲线。
学习曲线最最重要的特征是,随着训练数据的增加,分数会收敛到定值。因此,一旦数据多到使模型得分已经收敛,那么增加更多的训练样本也无济于事。
唯一改善方法就是更换模型。
验证实践:网格搜索
通过网格搜索自动寻找一个模型参数的最优值。
Scikit-Learn中grid_search提供了一个自动化工具解决这个问题。
通过这个自动化评测工具,对模型进行拟合,输出最优参数。
最后,我们可以利用输出的最优参数调整模型超参数,并对数据进行训练。
网友评论