美文网首页
机器学习-随机森林

机器学习-随机森林

作者: cHarden13 | 来源:发表于2020-04-11 01:56 被阅读0次

一.背景知识

决策树局限:决策树的构建要利用大量的数据,但是当用这个构建好的决策树来对一批新的数据进行分类时,决策树并不能灵活地处理这些新数据。而随机森林综合了决策树简洁的特征,同时又具备灵活性,因此随机森林在精确性方面也得到了极大的提高。

二.构建随机森林

step1 构建自举数据集(bootstrapped dataset)
bootstrapped dataset

如上图所示,我们使用原始数据集构建自举数据集,注意这里是有放回的抽样,即原始数据集的每一行(每一个病人)都可被重复抽取。

step2 构建决策树

从自举数据集里选取自变量构建决策树,这里选取的自变量的个数是不一定的,可以是2个,可以是3个,可以是4个。此处我们先选择2个变量。如何确定这个optimal number(即最佳的变量选取数)?见step5.
行是样本,列是特征(自变量名),随机森林的随机体现在两点:(1)随机选取样本;(2)随机选取特征。

step3 重复1和2步

重复1和2步,这样就可以用多个决策树构成一个森林。

step4 out-of-bag

在用原始数据集构建自举数据集的过程中,大概会有三分之一的原始数据集中的记录不会包含在自举数据集中,这部分叫做out-of-bag dataset。当我们构建完随机森林后,可在out-of-bag dataset中验证随机森林的准确度,此时out-of-bag dataset相当于一个验证集。评估标准是out-of-bag error这个值,值越小代表准确度越好。

step5 确定optimal number

在step2里我们选择2个变量构建决策树,接下来我们依次选择3个、4个,构建不同的随机森林,算出不同的out-of-bag error,当out-of-bag error最小时的变量个数,就是optimal number。

step6 绘制随机森林的MDS图
根据最优的变量数目和最优的决策树数目,绘制MDS图 MDS

相关文章

  • 随机森林算法

    1.随机森林使用背景 1.1随机森林定义 随机森林是一种比较新的机器学习模型。经典的机器学习模型是神经网络,有半个...

  • 机器学习-随机森林

    一.背景知识 决策树局限:决策树的构建要利用大量的数据,但是当用这个构建好的决策树来对一批新的数据进行分类时,决策...

  • 机器学习算法 - 随机森林之决策树初探(1)

    随机森林是基于集体智慧的一个机器学习算法,也是目前最好的机器学习算法之一。 随机森林实际是一堆决策树的组合(正如其...

  • 机器学习(12)——随机森林

    前言:前面已经介绍了的几种算法,应该对算法有了一个基本的认识了,本章主要是在前面已经学到的基础上,对前面的算法模型...

  • [机器学习算法]随机森林

    单棵决策树的劣势 有时候单棵决策树可能难以实现较高的准确率,这主要是由以下几个方面决定的: 求解一棵最优(泛化误差...

  • 机器学习之随机森林

    开篇先看个风险森林图吧~~ 1.准备输入数据 2.挑选感兴趣的基因构建coxph模型 出自文章Integrated...

  • 机器学习之-随机森林

    集成学习bagging-随机森林:

  • 机器学习(九) 随机森林

    随机森林是在Bagging策略的基础上进行修改后的一种算法。 随机:数据采样随机,特征选择随机 森林:很多个决策树...

  • 机器学习算法:随机森林

    在经典机器学习中,随机森林一直是一种灵丹妙药类型的模型。 该模型很棒有几个原因: 与许多其他算法相比,需要较少的数...

  • 机器学习算法概述:随机森林&逻辑回归

    摘要:机器学习算法入门介绍:随机森林与逻辑回归! 随机森林是用于分类和回归的监督式集成学习模型。为了使整体性能更好...

网友评论

      本文标题:机器学习-随机森林

      本文链接:https://www.haomeiwen.com/subject/wjlsmhtx.html