美文网首页
随机森林01

随机森林01

作者: 文子轩 | 来源:发表于2020-06-08 23:14 被阅读0次
    RandomForestClassifier

    随机森林是非常具有代表性的Bagging集成算法,它的所有基评估器都是决策树,分类树组成的森林就叫做随机森
    林分类器,回归树所集成的森林就叫做随机森林回归器。这一节主要讲解RandomForestClassifier,随机森林分类
    器。

    class sklearn.ensemble.RandomForestClassifier (n_estimators=’10’, criterion=’gini’, max_depth=None,
    min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=’auto’,
    max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, bootstrap=True, oob_score=False,
    n_jobs=None, random_state=None, verbose=0, warm_start=False, class_weight=None)
    

    一、重要参数( RandomForestClassifier)分类

    参数 含义
    criterion 不纯度的衡量指标,有基尼系数和信息熵两种选择
    max_depth 树的最大深度,超过最大深度的树枝都会被剪掉
    min_samples_leaf 一个节点在分枝后的每个子节点都必须包含至少
    min_samples_leaf 个训练样本,否则分枝就不会发生
    min_samples_split 一个节点必须要包含至少min_samples_split个训练样本,这个节点才允许被分枝,否则分枝就不会发生
    max_features max_features限制分枝时考虑的特征个数,超过限制个数的特征都会被舍弃,默认值为总特征个数开平方取整
    min_impurity_decrease 限制信息增益的大小,信息增益小于设定数值的分枝不会发生
    1.1、n_estimators

    这是森林中树木的数量,即基评估器的数量。这个参数对随机森林模型的精确性影响是单调的,n_estimators越
    大,模型的效果往往越好。但是相应的,任何模型都有决策边界,n_estimators达到一定的程度之后,随机森林的
    精确性往往不在上升或开始波动,并且,n_estimators越大,需要的计算量和内存也越大,训练的时间也会越来越
    长。对于这个参数,我们是渴望在训练难度和模型效果之间取得平衡。

    2.1、random_state

    随机森林的本质是一种装袋集成算法(bagging),装袋集成算法是对基评估器的预测结果进行平均或用多数表决
    原则来决定集成评估器的结果。在刚才的红酒例子中,我们建立了25棵树,对任何一个样本而言,平均或多数表决
    原则下,当且仅当有13棵以上的树判断错误的时候,随机森林才会判断错误。单独一棵决策树对红酒数据集的分类
    准确率在0.85上下浮动,假设一棵树判断错误的可能性为0.2(ε),那20棵树以上都判断错误的可能性是

    import numpy as np
    from scipy.special import comb
    np.array([comb(25,i)*(0.2**i)*((1-0.2)**(25-i)) for i in range(13,26)]).sum()
    

    随机森林中其实也有random_state,用法和分类树中相似,只不过在分类树中,一个random_state只控制生成一
    棵树,而随机森林中的random_state控制的是生成森林的模式,而非让一个森林中只有一棵树。

    import numpy as np
    from scipy.special import comb
    np.array([comb(25,i)*(0.2**i)*((1-0.2)**(25-i)) for i in range(13,26)]).sum()
    rfc = RandomForestClassifier(n_estimators=20,random_state=2)
    rfc = rfc.fit(Xtrain, Ytrain) #随机森林的重要属性之一:estimators,查看森林中树的状况
    rfc.estimators_[0].random_state
    for i in range(len(rfc.estimators_)):
        print(rfc.estimators_[i].random_state)
    
    2.2 bootstrap & oob_score

    要让基分类器尽量都不一样,一种很容易理解的方法是使用不同的训练集来进行训练,而袋装法正是通过有放回的
    随机抽样技术来形成不同的训练数据,bootstrap就是用来控制抽样技术的参数。
    bootstrap参数默认True,代表采用这种有放回的随机抽样技术

    #无需划分训练集和测试集
    rfc = RandomForestClassifier(n_estimators=25,oob_score=True)
    rfc = rfc.fit(wine.data,wine.target) #重要属性oob_score_
    rfc.oob_score_
    
    三、重要属性和接口
    至此,我们已经讲完了所有随机森林中的重要参数,为大家复习了一下决策树的参数,并通过n_estimators,
    
    random_state,boostrap和oob_score这四个参数帮助大家了解了袋装法的基本流程和重要概念。同时,我们还
    
    介绍了.estimators_ 和 .oob_score_ 这两个重要属性。除了这两个属性之外,作为树模型的集成算法,随机森林
    自然也有.feature_importances_这个属性。
    

    随机森林的接口与决策树完全一致,因此依然有四个常用接口:apply, fit, predict和score。除此之外,还需要注
    意随机森林的predict_proba接口,这个接口返回每个测试样本对应的被分到每一类标签的概率,标签有几个分类
    就返回几个概率。如果是二分类问题,则predict_proba返回的数值大于0.5的,被分为1,小于0.5的,被分为0。
    传统的随机森林是利用袋装法中的规则,平均或少数服从多数来决定集成的结果,而sklearn中的随机森林是平均
    每个样本对应的predict_proba返回的概率,得到一个平均概率,从而决定测试样本的分类

    #大家可以分别取尝试一下这些属性和接口
    rfc = RandomForestClassifier(n_estimators=25)
    rfc = rfc.fit(Xtrain, Ytrain)
    rfc.score(Xtest,Ytest)
    rfc.feature_importances_
    rfc.apply(Xtest)
    rfc.predict(Xtest)
    rfc.predict_proba(Xtest)
    
    四、Bonus:Bagging的另一个必要条件

    之前我们说过,在使用袋装法时要求基评估器要尽量独立。其实,袋装法还有另一个必要条件:基分类器的判断准
    确率至少要超过随机分类器,即时说,基分类器的判断准确率至少要超过50%。之前我们已经展示过随机森林的准
    确率公式,基于这个公式,我们画出了基分类器的误差率ε和随机森林的误差率之间的图像。大家可以自己运行一下这段代码,看看图像呈现什么样的分布

    import numpy as np
    x = np.linspace(0,1,20) y = []
    for epsilon in np.linspace(0,1,20):
        E = np.array([comb(25,i)*(epsilon**i)*((1-epsilon)**(25-i)) 
                      for i in range(13,26)]).sum()
        y.append(E)
    plt.plot(x,y,"o-",label="when estimators are different")
    plt.plot(x,x,"--",color="red",label="if all estimators are same")
    plt.xlabel("individual estimator's error")
    plt.ylabel("RandomForest's error")
    plt.legend()
    plt.show()
    

    相关文章

      网友评论

          本文标题:随机森林01

          本文链接:https://www.haomeiwen.com/subject/kqadtktx.html