sklearn-随机森林分类器

作者: 曦宝 | 来源:发表于2018-08-20 16:59 被阅读128次

随机森林（1.11.2.1），随机森林的参数属性方法和决策树差不多。
（RandomForestClassifier）

参数：

1、n_estimators : integer, optional (default=10)，森林里树的个数。

2、criterion : string, optional (default=“gini”)，衡量分割质量的函数。支持的标准是基尼系数“gini”，以及信息增益的熵“ entropy”。注意，这个参数是树特有的。

3、max_features : int, float, string or None, optional (default=“auto”)，在寻找最佳分割时，需要考虑的特征数量。
1，如果是int，每次分割时考虑max_features个特征。
2，如果是float，则max_features是百分比，每次分割时考虑int(max_features * n_features) 个特征。
3，如果是“auto”，max_features=sqrt(n_features)（开平方）。
4，如果是“sqrt”，max_features=sqrt(n_features).
5，如果是“log2”，max_features=log2(n_features).
6，如果是None， max_features=n_features.

4、max_depth : integer or None, optional (default=None)，树的最大深度。如果是None，那么节点就会被扩展，直到所有的叶子都是纯的，或者直到所有的叶子包含的样本数都比min_samples_split 少。

5、min_samples_split : int, float, optional (default=2)，分割一个内部节点所需的最小样本数：
1，如果是int，就是min_samples_split
2，如果是float，就是比例，(min_samples_split * n_samples)

6、min_samples_leaf : int, float, optional (default=1)，在叶节点所需要的样本的最小数量：
1，int，最小数量就是min_samples_leaf
2，Float，最小数量就是(min_samples_leaf * n_samples)

7、min_weight_fraction_leaf : float, optional (default=0.)，一个叶子节点所需要的最小权重比例（占所有输入样本的全体权重），当sample_weight不提供时，样本的权重相等。取值范围[0, 0.5]

8、max_leaf_nodes : int or None, optional (default=None)，以最佳优先的方式构建一棵带有max_leaf_nodes个叶节点的树。最好的节点被定义为不纯度的相对减少。如果是None，则不限制叶节点的数量。

9、min_impurity_decrease : float, optional (default=0.)，如果分裂导致的不纯度减少大于等于这个值，那么一个节点将会被分裂。
加权的不纯度减少的公式如下：
N_t / N * (impurity - N_t_R / N_t * right_impurity
- N_t_L / N_t * left_impurity)
N是所有的样本数，N_t是当前节点的样本数，N_t_L是左子树的样本数，N_t_R是右子树的样本数。
如果sample_weight被传值，N, N_t, N_t_R and N_t_L也适用于加权和。

10、min_impurity_split : float,树生长早期停止的阈值，如果一个节点的不纯度高于这个阈值，那么它将会被分裂，否则它就是一个叶子节点。

11、bootstrap : boolean, optional (default=True)，在构建树时是否使用引导样本。

12、oob_score : bool (default=False)，是否使用out-of-bag样本来估计泛化精度。

13、n_jobs : integer, optional (default=1)，多线程，-1表示使用全部内核。

14、random_state:int,RandomState instance or None,optional (default = None)，随机数种子。

15、verbose : int, optional (default=0)，冗长输出。

16、warm_start : bool, optional (default=False)，热启动，当设置为True时，重用之前调用的解决方案来拟合，并向整体增加更多的估计器。否则拟合一个全新的森林。

17、class_weight : dict, list of dicts, “balanced”or None, default = None，权重在{class_label: weight}这种形式上和类别有联系。如果不给出，所有的类别的权重都被赋值1。对于多输出问题，可以按照与y列相同的顺序提供一个字典列表。
注意，多输出（包括多label）权重将会被定义，为了每个类别的每一列在它自己的字典里。
“balanced”模式，利用y值自动调整权重，和输入数据的类别的频率成反比，n_samples / (n_classes * np.bincount(y))。
对于多输出，y的每一列的权重，将会相乘。
注意，如果指定了sample_weight，这些权重将与sample_weight（通过fit方法）相乘。

属性：

1、estimators_:分类决策树的list。

2、classes_ : array of shape = [n_classes] or a list of such arrays，类标签（单输出问题），或者类标签数组（多输出问题）的列表。

3、n_classes_ : int or list，类别的个数（单输出问题），一个列表包含每个输出的类别的个数（多输出问题）。

4、n_features_ : int，执行fit时的特征数量。

5、n_outputs_ : int，执行fit时的输出数量。

6、feature_importances_ : array of shape = [n_features]，特征重要性。（值越高，这个特征就越重要）

7、oob_score_ : float，使用一个包外估算获得的训练数据集的分数。

8、oob_decision_function_ : array of shape = [n_samples, n_classes]，训练集上，用包外估计来计算决策函数。如果n_estimators比较小，在引导的过程中可能不会遗漏一个数据点。在这种情况下，oob_decision_function_ 可能会包含NaN。

方法：
1、apply(X[, check_input])，返回每个样本所预测的叶子的索引。
2、decision_path(X[, check_input])，返回树中的决策路径。
3、fit(X, y[, sample_weight, check_input, …])，拟合。
4、get_params([deep])，得到参数。
5、predict(X[, check_input])，预测。
6、predict_log_proba(X)，预测输入样本X的对数概率。
7、predict_proba(X[, check_input])，预测输入样本X的概率。
8、score(X, y[, sample_weight])，返回给定测试数据和标签的平均精度。
9、set_params(**params)，设置参数。

随机森林的参数和决策树的参数非常的像，参数性质也差不多。
1、n_estimators，森林中树的个数，随着树的增加，acc会有所增加，同时运算速度也会变慢。而且随着值的增加，acc上升的幅度也越来越小了，最后收敛，值会在一个范围内震荡。
2、criterion，选择基尼系数和信息增益没有变化。
3、max_depth，随着值的增加，acc增加，达到最大值，然后过拟合了，acc会略有下降，然后再也不变了。默认值是一个收敛值。（保持默认）
4、min_samples_split，修改了很多，acc始终变化不大。
5、min_samples_leaf，随着值的增加，acc逐步下降，下降缓慢，变化不大。（保持默认）
6、min_weight_fraction_leaf，取值范围[0,0.5]，随着值的增加，acc越来越小。（保持默认）
7、max_features，“auto”正确率最高，其他都有所下降。数值方面变化不大。（保持默认）
8、max_leaf_nodes，随着值的增加，acc逐渐增加最终收敛，None最大。（保持默认）
9、min_impurity_decrease，随着值的增大，acc逐渐减小，最终收敛不变，0最大。（保持默认）
10、min_impurity_split，同上（保持默认）
11、bootstrap，true/false,对正确率有些许影响。（保持默认）
12、oob_score，true/false没有影响（保持默认）
13、warm_start,true/false没有影响（保持默认）
14、class_weight,None/'balanced'，有点影响（保持默认）

网友评论

SiriusWy:我没告诉你这两天调参，我还看你这篇了😁
曦宝:挼蛋，我带你飞

本文标题：sklearn-随机森林分类器

本文链接：https://www.haomeiwen.com/subject/mhvliftx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

sklearn-随机森林分类器

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

机器学习

机器学习

随机森林