三、随机森林(集成算法中最简单的,模型融合算法)
构造随机森林的四个步骤
1.一个样本容量为N的样本,有放回的抽取N次,每次抽取1个,最终形成了N个样本。这选择好了的N个样本用来训练一个决策树,作为决策树根节点处的样本。
2.当每个样本有M个属性时,在决策树的每个节点需要分裂时,随机从这M个属性中选取出m个属性,满足条件m << M。然后从这m个属性中采用某种策略(比如说信息增益)来选择1个属性作为该节点的分裂属性。
3.决策树形成过程中每个节点都要按照步骤2来分裂(很容易理解,如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性,则该节点已经达到了叶子节点,无须继续分裂了)。一直到不能够再分裂为止。注意整个决策树形成过程中没有进行剪枝。
4.按照步骤1~3建立大量的决策树,这样就构成了随机森林了。
随机森林的优缺点
优点
1.它可以出来很高维度(特征很多)的数据,并且不用降维,无需做特征选择
2.它可以判断特征的重要程度
3.可以判断出不同特征之间的相互影响
4.不容易过拟合
5.训练速度比较快,容易做成并行方法
6.实现起来比较简单
7.对于不平衡的数据集来说,它可以平衡误差。
8.如果有很大一部分的特征遗失,仍可以维持准确度。
缺点
1.随机森林已经被证明在某些噪音较大的分类或回归问题上会过拟合。
2.对于有不同取值的属性的数据,取值划分较多的属性会对随机森林产生更大的影响,所以随机森林在这种数据上产出的属性权值是不可信的。
随机森林的 4 个应用方向:
1.对离散值的分类
2.对连续值的回归
3.无监督学习聚类
4.异常点检测
网友评论