美文网首页
随机森林

随机森林

作者: wzNote | 来源:发表于2019-09-15 12:26 被阅读0次

    概念

    监督学习,兼顾了分类问题和回归问题
    森林:一定数量的决策树
    随机:1.在总数为N的样本中随机选择k个;2.在M个特征中随机选择m个

    优点

    1. 既可以用于分类又可以解决回归问题
    2. 作为分类器时,即使由部分数据缺失,随机森林也能保持很高的分类精确度
    3. 决策树的的增加并不会引起随机森林的过拟合
    4. 它可以对数量庞大的较高维数据进行分类,并且不用做特征选择
    5. 训练完后,能够给出哪些特征比较重要
    6. 容易做成并行化方法,速度比较快
    7. 可以进行可视化展示,便于分析

    缺点

    1. 能够很好地解决分类,但不能很好的解决回归,因为在本质上它是不连续的
    2. 在解决回归问题时,随机森林并不能为训练数据以外的对象给出答案,训练数据噪声较大也会造成过度拟合

    算法流程

    1. 假设样本有N个数据,每次从这些样本中选取一些,每次取出的不完全相同,这些样本作为决策树的训练数据组
    2. 假设每个数据点都有M个特征,则在每个节点处随机选m(m<M)个特征
    3. 把m分裂成两个部分,再用m最佳的分裂方案对节点进行分裂,决策树成长期间m的大小始终不变,每棵树都要完全成长而不被修剪
    4. 把每一颗树的预测结果累加起来,从而得到整个随机森林的预测结果

    相关文章

      网友评论

          本文标题:随机森林

          本文链接:https://www.haomeiwen.com/subject/wlwryctx.html