美文网首页
统计学习导论 ISL Ch5 重抽样方法

统计学习导论 ISL Ch5 重抽样方法

作者: los_pollos | 来源:发表于2017-08-31 21:38 被阅读0次

    重抽样方法(resembling method)

    定义:在训练集上随意地取样本,然后在每个样本上重新应用模型,以检验模型的准确性。

    作用:估计模型效果(test error);选择最佳的自由度(参数)

    5.1 交叉验证

    5.1.1 验证集方法

    步骤:

    1.随机地将观测集分为两部分:训练集和验证集

    2.利用训练集来生成一些模型

    3.在验证集上拟合模型,计算验证集错误率MSE,作为test error的估计

    缺陷:验证集方法得到的结果波动很大;验证集数据很少,相对于整个数据集来说会高估test error

    5.1.2 留一交叉验证法LOOCV

    步骤:

    1.将观测集分为两部分:一个单独的观测(x1,y1)为验证集,剩下的观测为训练集

    2.利用训练集来生成一些模型

    3.由x1带入模型可得到y1的估计,从而得到MSE1

    4.将(x2,y2)看做验证集,利用剩下的n-1个观测值生成模型,重复这个步骤,可以得到n个均方误差MSE1,...,MSEn

    5.对test error的LOOCV估计是这n个MSE的均值

    特点:

    计算量可能很大,因为需要生成n次模型。

    5.1.3 k折交叉验证法(k-fold CV)

    1.将观测值随机地分成k个大小基本一致的组,第一组作为验证集

    2.利用其他k-1个组来生成模型

    3.在第一组上拟合模型,得到MSE1

    4.将第二组看做验证集,利用剩下的k-1个组生成模型,重复k次这个步骤,得到k个test error的估计:

    MSE1,...,MSEn

    5.对test error的k折交叉验证估计为这k个值的均值

    特点:

    比验证集方法的稳定性更好;当n较大时,比LOOCV计算的可行性更高。

    5.2 自助法(bootstrap)

    相关文章

      网友评论

          本文标题:统计学习导论 ISL Ch5 重抽样方法

          本文链接:https://www.haomeiwen.com/subject/iyrcjxtx.html