美文网首页
随机森林中oob以及oob的作用?

随机森林中oob以及oob的作用?

作者: 快乐的小飞熊 | 来源:发表于2017-04-30 15:56 被阅读0次

    在随机森林bagging法中可以发现booststrap每次约有1/3的样本不会出现在bootstrap所采集的样本集合中,故没有参加决策树的建立,这些数据称为袋外数据oob,用于取代测试集误差估计方法,可用于模型的验证。
    下面先介绍下oob的使用,其中(x,y)代表输入的样本和label,g表示的是构建的树。


    上图中(xN,yN)没有用于g2、g3、gt,所以(xN,yN)可以作为g2、g3、gt的验证数据,然后用oob数据作为输入,输入到模型中,然后投票,少数服从多数。同理,对于(x1,y1)、(x2,y2)等也存在同样的计算,最终计算评判错误的样本占比,就是oob-error.

    所以oob可以用来衡量模型的好坏。

    同时,也可以引出随机森林输出特征重要性的原理,如果特征i对于模型是有利的,那么第i维特征置换成随机值,将会降低模型的性能,也就是会使oob-error变大。

    相关文章

      网友评论

          本文标题:随机森林中oob以及oob的作用?

          本文链接:https://www.haomeiwen.com/subject/xsymnttx.html