美文网首页
五.模型衡量指标

五.模型衡量指标

作者: 愿风去了 | 来源:发表于2018-10-23 11:47 被阅读13次

    理解机器学习中的偏差与方差

    https://blog.csdn.net/simple_the_best/article/details/71167786

    偏差与方差的均衡

    最优模型的问题基本上可以看成是寻找方差和偏差的平衡点。

    对于给定数据,模型被认为对数据欠拟合,也就是说模型没有足够的灵活性来适应数据的所有特征。另一种说法就是模型具有高偏差。

    同样给定数据,模型几乎完美的适应了所有数据的特征,与其说是十分准确地描述了训练数据,不如说是模型过多的学习了数据的噪音,而不是数据的本质属性。这样的模型被认为是对数据过拟合。

    也就是说模型在适应了数据所有特征的同时,也适应了随机误差。另一种说法就是模型具有高方差。

    判定系数R²

    用来衡量模型与目标值均值的对比结果。

    R²=1表示模型与数据完全吻合;

    R²=0表示模型不比简单取均值好;

    R²<0表示模型性能很差。

    一般有如下规则:

    对于高偏差模型,模型在验证集和训练集表现类似;

    对于高方差模型,模型在验证集表现远不如训练集表现。

    验证曲线

    验证曲线和学习曲线的区别是,横轴为某个超参数的一系列值,由此来看不同参数设置下模型的准确率,而不是不同训练集大小下的准确率。

    从验证曲线上可以看到随着超参数设置的改变,模型可能从欠拟合到合适再到过拟合的过程,进而选择一个合适的设置,来提高模型的性能。

    需要明确的是,训练得分总是比验证得分要高,训练的分随着模型复杂度的提升而单调递增,验证得分增长到最高点后由于过拟合而开始骤降。

    学习曲线

    反应训练集规模的训练得分 / 验证得分曲线称为学习曲线。

    学习曲线最最重要的特征是,随着训练数据的增加,分数会收敛到定值。因此,一旦数据多到使模型得分已经收敛,那么增加更多的训练样本也无济于事。

    唯一改善方法就是更换模型。

    验证实践:网格搜索

    通过网格搜索自动寻找一个模型参数的最优值。

    Scikit-Learn中grid_search提供了一个自动化工具解决这个问题。

    通过这个自动化评测工具,对模型进行拟合,输出最优参数。

    最后,我们可以利用输出的最优参数调整模型超参数,并对数据进行训练。

    相关文章

      网友评论

          本文标题:五.模型衡量指标

          本文链接:https://www.haomeiwen.com/subject/eannzftx.html