美文网首页
K-折交叉验证的原理

K-折交叉验证的原理

作者: ShowMeCoding | 来源:发表于2020-07-15 14:00 被阅读0次

    1 请解释K折交叉验证的原理

    将n个观测值均分为K组。用其中的K-1组来训练模型,然后用训练得到的模型对剩下的一组进行预测,并在该组上计算预测误差。因为从K组中选择K-1组有K种选择,因此将有训练集(K-1组数据),测试集(1组数据)。通过计算K次的预测误差,对其平均便会得到1个交叉验证误差,以上过程即为K-fold交叉验证。

    2 解决问题:过拟合和欠拟合的问题

    K的选取决定了拟合的误差,通过K值的选取,可以解决过拟合和欠拟合的问题。

    • K越大,每次投入训练集的数据越多,模型的偏差越小,但是K越大,意味着每一次选取的训练集之前的相关性越大,而这种大相关性会导致最终的test error具有更大的方差,导致过拟合。
    • K越小,数据集的数据较少,不能反映数据的有效信息。

    3 如何解决偏差、方差问题

    偏差和方差无法避免,只能尽量减少其影响。

    • (1)在避免偏差时,需尽量选择正确的模型
    • (2)在正确选择模型之后,还要慎重选择数据集的大小,通常数据量越大越好,但是当大的数据集已经对整体所有数据有了一定的代表性之后,再多的数据已经不能提升模型,反而会带来计算量的增加;数据量太小,当模型复杂度太高时带来较大的方差,导致过拟合。
    • (3)选择合适的模型复杂度,从而实现对训练数据的良好拟合。

    偏差:实际上也可以称为避免欠拟合

    (1)寻找更好的特征——具有代表性

    (2)使用更多的特征——增大输入向量的维度(增加模型复杂度)

    方差:避免过拟合

    (1)增大数据集合——使用更多的数据,减少数据扰动所造成的影响

    (2)减少数据特征——减少数据维度,减少模型复杂度

    (3)使用正则化方法

    (4)交叉验证法

    相关文章

      网友评论

          本文标题:K-折交叉验证的原理

          本文链接:https://www.haomeiwen.com/subject/cbidhktx.html