美文网首页
机器学习-随机森林

机器学习-随机森林

作者: cHarden13 | 来源:发表于2020-04-11 01:56 被阅读0次

    一.背景知识

    决策树局限:决策树的构建要利用大量的数据,但是当用这个构建好的决策树来对一批新的数据进行分类时,决策树并不能灵活地处理这些新数据。而随机森林综合了决策树简洁的特征,同时又具备灵活性,因此随机森林在精确性方面也得到了极大的提高。

    二.构建随机森林

    step1 构建自举数据集(bootstrapped dataset)
    bootstrapped dataset

    如上图所示,我们使用原始数据集构建自举数据集,注意这里是有放回的抽样,即原始数据集的每一行(每一个病人)都可被重复抽取。

    step2 构建决策树

    从自举数据集里选取自变量构建决策树,这里选取的自变量的个数是不一定的,可以是2个,可以是3个,可以是4个。此处我们先选择2个变量。如何确定这个optimal number(即最佳的变量选取数)?见step5.
    行是样本,列是特征(自变量名),随机森林的随机体现在两点:(1)随机选取样本;(2)随机选取特征。

    step3 重复1和2步

    重复1和2步,这样就可以用多个决策树构成一个森林。

    step4 out-of-bag

    在用原始数据集构建自举数据集的过程中,大概会有三分之一的原始数据集中的记录不会包含在自举数据集中,这部分叫做out-of-bag dataset。当我们构建完随机森林后,可在out-of-bag dataset中验证随机森林的准确度,此时out-of-bag dataset相当于一个验证集。评估标准是out-of-bag error这个值,值越小代表准确度越好。

    step5 确定optimal number

    在step2里我们选择2个变量构建决策树,接下来我们依次选择3个、4个,构建不同的随机森林,算出不同的out-of-bag error,当out-of-bag error最小时的变量个数,就是optimal number。

    step6 绘制随机森林的MDS图
    根据最优的变量数目和最优的决策树数目,绘制MDS图 MDS

    相关文章

      网友评论

          本文标题:机器学习-随机森林

          本文链接:https://www.haomeiwen.com/subject/wjlsmhtx.html