美文网首页
随机森林

随机森林

作者: 三块给你买麻糬_31c3 | 来源:发表于2022-09-29 17:15 被阅读0次

1. 基本概念

随机森林就是通过集成学习的思想将多棵树集成的一种算法,它的基本单元是决策树,而它的本质属于机器学习的一大分支——集成学习(Ensemble Learning)方法。随机森林解决了决策树泛化能力弱的缺点,随机森林的名称中有两个关键词,一个是“随机”,一个就是“森林”。随机是指随机选择样本,随机选择特征。即每一棵树是从整个训练样本集当中选取固定数量的样本集,然后选取固定数量的特征集,从而构建随机森林中的每一棵决策树。森林是指模型中包含了很多棵决策树。

从直观角度来解释,每棵决策树都是一个分类器(假设现在针对的是分类问题),那么对于一个输入样本,N棵树会有N个分类结果。而随机森林集成了所有的分类投票结果,将投票次数最多的类别指定为最终的输出,这就是一种最简单的Bagging思想。

利用多棵决策树对样本数据进行训练、分类并预测的一种方法,它在对数据进行分类的同时,还可以给出各个变量(基因)的重要性评分,评估各个变量在分类中所起的作用。

2 .基本语句

(1)相关数据库的导入

from sklearn.ensemble import RandomForestClassifier    #随机森林用于分类

from sklearn.ensemble import RandomForestRegressor      #随机森林用于回归

from sklearn.model_selection import train_test_split          #划分训练集与测试集

from sklearn import metrics   

from sklearn.metrics import r2_score              #用于模型拟合优度评估

(2)随机森林分类器

sklearn.ensemble.RandomForestClassifier(n_estimators=10, criterion='gini', max_depth=None, /

bootstrap=True, random_state=None, min_samples_split=2)

参数的解释:n_estimators:树的棵树,max_depth:树的最大深度,max_features:寻找最佳分割时要考虑的特征数量,random_state:控制构建树时样本的随机抽样

(3)训练集和测试集的划分

train_X, test_X, train_y, test_y = train_test_split(data_X, data_y, train_size=0.8, random_state=1)

feature_list = list(train_features.columns) (数据特征名称)

(4)构建随机森林模型

model=RandomForestRegressor(n_estimators=120,max_depth=12,max_features=30,random_state=)

3.实例操作

输出结果为:

4 .一些细节问题

(1)树的选择

随机森林的目的就是要通过大量的基础树模型找到最稳定可靠的结果,在实际问题中,树模型的个数一般取100~200个,继续增加下去,效果也不会发生明显改变。

(2)特征重要性

特征重要性就是在数据中每一个特征的重要程度,也就是在树模型中,哪些特征被利用得更多,因为树模型会优先选择最优价值的特征。在集成算法中,会综合考虑所有树模型,如果一个特征在大部分基础树模型中都被使用并且靠近根节点,就比较重要。

相关文章

  • 何为决策树和随机森林?

    随机森林 定义:随机森林或随机决策森林是用于分类、回归和其他任务的集成学习方法。 名字由来:随机森林就是使用随机的...

  • 集成学习之Bagging和RF

    一、什么是随机森林 二、随机森林的两个随机 三、随机森林算法过程 四、为什么如此受欢迎 五、随机森林算法的优缺点 ...

  • (十四、)极限森林

    一、极限森林 特征随机参数随机分裂随机因为分裂是随机的,所以就不需要样本是随机的了 随机森林和极限森林不同之处:随...

  • 随机森林

    https://www.cnblogs.com/fionacai/p/5894142.htmlhttps://ww...

  • 随机森林

    先上重点 GBDT和随机森林虽然都是决策树的组合算法,但是两者的训练过程还是很不相同的。 GBDT训练是每次一棵,...

  • 随机森林

    算法过程 N个训练样本,M个特征 选定特征数目m作为每个决策树的特征,m<

  • 随机森林

    1、什么是随机森林? 随机森林就是用随机的方式建立一个森林,在森林里有很多决策树组成,并且每一棵决策树之间是没有关...

  • 随机森林

    随机森林(RandomForest), 可用于分类或者回归, 相比较决策树的算法, 随机森林是由多棵CART(Cl...

  • 随机森林

    随机森林是一种分类算法,实战中往往比较有用。 简介:如其名,算法里面有一些随机性,另外,主要的思想是很多的决策树(...

  • 随机森林

    随机森林指的是利用多棵树对样本进行训练并预测的一种分类器 01、前言 宠物店里有猫和狗两种宠物,每个动物都有他编号...

网友评论

      本文标题:随机森林

      本文链接:https://www.haomeiwen.com/subject/auekartx.html