机器学习-随机森林

作者: cHarden13 | 来源:发表于2020-04-11 01:56 被阅读0次

随机森林算法
机器学习-随机森林
机器学习算法 - 随机森林之决策树初探（1）
机器学习（12）——随机森林
[机器学习算法]随机森林
机器学习之随机森林
机器学习之-随机森林
机器学习（九）随机森林
机器学习算法：随机森林
机器学习算法概述：随机森林&逻辑回归

一.背景知识

决策树局限：决策树的构建要利用大量的数据，但是当用这个构建好的决策树来对一批新的数据进行分类时，决策树并不能灵活地处理这些新数据。而随机森林综合了决策树简洁的特征，同时又具备灵活性，因此随机森林在精确性方面也得到了极大的提高。

二.构建随机森林

step1 构建自举数据集(bootstrapped dataset)

bootstrapped dataset

如上图所示，我们使用原始数据集构建自举数据集，注意这里是有放回的抽样，即原始数据集的每一行(每一个病人)都可被重复抽取。

step2 构建决策树

从自举数据集里选取自变量构建决策树，这里选取的自变量的个数是不一定的，可以是2个，可以是3个，可以是4个。此处我们先选择2个变量。如何确定这个optimal number(即最佳的变量选取数)？见step5.
行是样本，列是特征(自变量名)，随机森林的随机体现在两点：(1)随机选取样本；(2)随机选取特征。

step3 重复1和2步

重复1和2步，这样就可以用多个决策树构成一个森林。

step4 out-of-bag

在用原始数据集构建自举数据集的过程中，大概会有三分之一的原始数据集中的记录不会包含在自举数据集中，这部分叫做out-of-bag dataset。当我们构建完随机森林后，可在out-of-bag dataset中验证随机森林的准确度，此时out-of-bag dataset相当于一个验证集。评估标准是out-of-bag error这个值，值越小代表准确度越好。