概念
监督学习,兼顾了分类问题和回归问题
森林:一定数量的决策树
随机:1.在总数为N的样本中随机选择k个;2.在M个特征中随机选择m个
优点
- 既可以用于分类又可以解决回归问题
- 作为分类器时,即使由部分数据缺失,随机森林也能保持很高的分类精确度
- 决策树的的增加并不会引起随机森林的过拟合
- 它可以对数量庞大的较高维数据进行分类,并且不用做特征选择
- 训练完后,能够给出哪些特征比较重要
- 容易做成并行化方法,速度比较快
- 可以进行可视化展示,便于分析
缺点
- 能够很好地解决分类,但不能很好的解决回归,因为在本质上它是不连续的
- 在解决回归问题时,随机森林并不能为训练数据以外的对象给出答案,训练数据噪声较大也会造成过度拟合
算法流程
- 假设样本有N个数据,每次从这些样本中选取一些,每次取出的不完全相同,这些样本作为决策树的训练数据组
- 假设每个数据点都有M个特征,则在每个节点处随机选m(m<M)个特征
- 把m分裂成两个部分,再用m最佳的分裂方案对节点进行分裂,决策树成长期间m的大小始终不变,每棵树都要完全成长而不被修剪
- 把每一颗树的预测结果累加起来,从而得到整个随机森林的预测结果
网友评论