随机森林原理(接着上次的决策树)

作者: 435fa00b72e7 | 来源:发表于2017-08-26 03:03 被阅读0次

    随机森林(random forest)

    • Random Forest 流程:
      • bagging(bootstrap aggregation)
      • 生成决策树
      • 对每一个输入进行所有决策树的过滤
      • 使用mean-信息增益Gini生成评分
    • bagging:bootstrap aggregation,bootstrap表示有放回的取出样本(jack knife,每次移除一个样本).而bagging是指使用bootstrap取样,从m个中取n个样本,并取出k组,对每一组进行训练模型,形成f1...fn个模型,对于新的测试数据,通过这k个模型,最后回归使用求平均,而分类问题使用类别最多的结果.
    • 决策树群:根据决策树的算法,建立多个决策树,如bagging那样的原理
    • 评分:
    • 根据决策树的信息信息增益评分:通过每一棵决策树的信息增益结果,取得每棵树的平均得分作为得分
    • Gini评分:在Cart算法中,Gini评分会对每一个非叶节点形成评分,最后形成每个特征的评分
    • 流程:
    • 输入数据集
    • bagging选取k组n个样本集
    • 随机选择m个特征
    • 建立k个决策树,并得到m个特征的评分(如sk-learn中就是Gini评分)
    • 过滤测试样本,通过选取数量最多的为结果
    • genelization error:泛化误差,RF的泛化误差比较小

    相关文章

      网友评论

        本文标题:随机森林原理(接着上次的决策树)

        本文链接:https://www.haomeiwen.com/subject/znfmdxtx.html