from sklearn.ensemble import RandomForestClassifier
随机森林的随机表示2重随机. 第一重是样本随机. 有放回的随机抽样, 所有的树,都抽取一样的样本数量. 第二重是特征随机. 有放回的随机抽样, 所有的树,都抽取一样的特征数量. 用随机取出来的样本数和特征数生成决策树 分类问题就是投票 回归问题就是求平均
作用:1、减少决策树带来的过拟合问题 2、可以判断特征的重要性.
n_estimators :是随机森林生成树的个数.默认是10棵.
RF的主要优点有:
1、训练可以高度并行化,对于大数据时代的大样本训练速度有优势。个人觉得这是的最主要的优点。
2、由于可以随机选择决策树节点划分特征,这样在样本特征维度很高的时候,仍然能高效的训练模型。
3、在训练后,可以给出各个特征对于输出的重要性
4、由于采用了随机采样,训练出的模型的方差小,泛化能力强。
5、 相对于Boosting系列的Adaboost和GBDT, RF实现比较简单。
6、对部分特征缺失不敏感。
RF的主要缺点有:
1、在某些噪音比较大的样本集上,RF模型容易陷入过拟合。
2、取值划分比较多的特征容易对RF的决策产生更大的影响,从而影响拟合的模型的效果。
网友评论