美文网首页
RandomForest(随机森林)

RandomForest(随机森林)

作者: 夏日丶 | 来源:发表于2019-01-30 20:22 被阅读0次

    from sklearn.ensemble import RandomForestClassifier

    随机森林的随机表示2重随机. 第一重是样本随机. 有放回的随机抽样, 所有的树,都抽取一样的样本数量. 第二重是特征随机. 有放回的随机抽样, 所有的树,都抽取一样的特征数量. 用随机取出来的样本数和特征数生成决策树 分类问题就是投票 回归问题就是求平均

    作用:1、减少决策树带来的过拟合问题                                                2、可以判断特征的重要性.

    n_estimators :是随机森林生成树的个数.默认是10棵.

    RF的主要优点有:

        1、训练可以高度并行化,对于大数据时代的大样本训练速度有优势。个人觉得这是的最主要的优点。

        2、由于可以随机选择决策树节点划分特征,这样在样本特征维度很高的时候,仍然能高效的训练模型。

        3、在训练后,可以给出各个特征对于输出的重要性

        4、由于采用了随机采样,训练出的模型的方差小,泛化能力强。

        5、 相对于Boosting系列的Adaboost和GBDT, RF实现比较简单。

        6、对部分特征缺失不敏感。

    RF的主要缺点有:

        1、在某些噪音比较大的样本集上,RF模型容易陷入过拟合。

        2、取值划分比较多的特征容易对RF的决策产生更大的影响,从而影响拟合的模型的效果。

    相关文章

      网友评论

          本文标题:RandomForest(随机森林)

          本文链接:https://www.haomeiwen.com/subject/onacsqtx.html