一.背景知识
决策树局限:决策树的构建要利用大量的数据,但是当用这个构建好的决策树来对一批新的数据进行分类时,决策树并不能灵活地处理这些新数据。而随机森林综合了决策树简洁的特征,同时又具备灵活性,因此随机森林在精确性方面也得到了极大的提高。
二.构建随机森林
step1 构建自举数据集(bootstrapped dataset)
bootstrapped dataset如上图所示,我们使用原始数据集构建自举数据集,注意这里是有放回的抽样,即原始数据集的每一行(每一个病人)都可被重复抽取。
step2 构建决策树
从自举数据集里选取自变量构建决策树,这里选取的自变量的个数是不一定的,可以是2个,可以是3个,可以是4个。此处我们先选择2个变量。如何确定这个optimal number(即最佳的变量选取数)?见step5.
行是样本,列是特征(自变量名),随机森林的随机体现在两点:(1)随机选取样本;(2)随机选取特征。
step3 重复1和2步
重复1和2步,这样就可以用多个决策树构成一个森林。
step4 out-of-bag
在用原始数据集构建自举数据集的过程中,大概会有三分之一的原始数据集中的记录不会包含在自举数据集中,这部分叫做out-of-bag dataset。当我们构建完随机森林后,可在out-of-bag dataset中验证随机森林的准确度,此时out-of-bag dataset相当于一个验证集。评估标准是out-of-bag error这个值,值越小代表准确度越好。
step5 确定optimal number
在step2里我们选择2个变量构建决策树,接下来我们依次选择3个、4个,构建不同的随机森林,算出不同的out-of-bag error,当out-of-bag error最小时的变量个数,就是optimal number。
网友评论