美文网首页
决策树-1

决策树-1

作者: 从来只看自己_7faa | 来源:发表于2019-12-22 22:59 被阅读0次
    1. 决策树算法简介

    决策树属于经典的十大数据挖掘算法之一,是一种类似于流程图的树结构,其规则就是IF...THEN...的思想,可以用于数值型因变量的预测和离散型因变量的分类。

    该算法简单直观、通俗易懂,不需要研究者掌握任何领域知识或复杂的数学推理,而且算法的结果输出具有很强的解释性。

    下图中的决策树呈现自顶向下的生长过程,深色的椭圆表示树的根节点;浅色的椭圆表示树的中间节点;方框则表示树的叶节点。对于所有的非叶节点来说,都是用来表示条件判断,而叶节点则存储最终的分类结果,例如中年分支下的叶节点(4,0)表示4位客户购买,0位客户不购买。

    image

    2. 决策树模型的Python函数

    DecisionTreeClassifier(criterion='gini', splitter='best', 
                                        max_depth=None,min_samples_split=2, 
                                        min_samples_leaf=1,
                                        min_weight_fraction_leaf=0.0,max_features=None,            
                                        random_state=None, max_leaf_nodes=None,                                
                                        min_impurity_decrease=0.0, 
                                        min_impurity_split=None, 
                                        class_weight=None, presort=False)
    
    
    

    criterion:用于指定选择节点字段的评价指标,对于分类决策树,默认为gini,表示采用基尼指数选择节点的最佳分割字段;对于回归决策树,默认为'mse',表示使用均方误差选择节点的最佳分割字段

    splitter:用于指定节点中的分割点选择方法,默认为'best',表示从所有的分割点中选择最佳分割点;如果指定为'random',则表示随机选择分割点

    max_depth:用于指定决策树的最大深度,默认为None,表示树的生长过程中对深度不做任何限制

    min_samples_split:用于指定根节点或中间节点能够继续分割的最小样本量, 默认为2

    min_samples_leaf:用于指定叶节点的最小样本量,默认为1

    min_weight_fraction_leaf:用于指定叶节点最小的样本权重,默认为None,表示不考虑叶节点的样本权值

    max_features:用于指定决策树包含的最多分割字段数,默认为None,表示分割时使用所有的字段,与指定'auto'效果一致;如果为具体的整数,则考虑使用对应的分割字段数;如果为0~1的浮点数,则考虑对应百分比的字段个数;如果为'sqrt',则表示最多考虑√P个字段;如果为'log2',则表示最多使用〖log〗_2 P个字段

    random_state:用于指定随机数生成器的种子,默认为None,表示使用默认的随机数生成器

    max_leaf_nodes:用于指定最大的叶节点个数,默认为None,表示对叶节点个数不做任何限制

    min_impurity_decrease:用于指定节点是否继续分割的最小不纯度值,默认为0

    min_impurity_split:同参数min_impurity_decrease含义一致,该参数已在0.21版本剔除

    class_weight:用于指定因变量中类别之间的权重,默认为None,表示每个类别的权重都相等;如果为balanced,则表示类别权重与原始样本中类别的比例成反比;还可以通过字典传递类别之间的权重差异,其形式为{class_label:weight}

    presort:bool类型参数,是否对数据进行预排序,默认为False。如果数据集的样本量比较小,设置为True可以提高模型的执行速度;如果数据集的样本量比较大,则不易设置为True

    3.实践

    # 导入第三方模块
    import pandas as pd
    # 读入数据
    Titanic = pd.read_csv(r'Titanic.csv')
    Titanic.head()
    
    # 删除无意义的变量,并检查剩余自字是否含有缺失值
    Titanic.drop('PassengerId')
    Titanic.isnull().sum(axis = 0)
    
    # 对Sex分组,用各组乘客的平均年龄填充各组中的缺失年龄
    fillna_Titanic = []
    for i in Titanic.Sex.unique():
        update = Titanic.loc[Titanic.Sex == i,].fillna(value = {'Age': Titanic.Age[Titanic.Sex == i].mean()}, inplace = False)
        fillna_Titanic.append(update)
    Titanic = pd.concat(fillna_Titanic)
    # 使用Embarked变量的众数填充缺失值
    Titanic.fillna(value = {'Embarked':Titanic.Embarked.mode()[0]}, inplace=True)
    Titanic.head()
    
    # 将数值型的Pclass转换为类别型,否则无法对其哑变量处理
    Titanic.Pclass = Titanic.Pclass.astype('category')
    # 哑变量处理
    dummy = pd.get_dummies(Titanic[['Sex','Embarked','Pclass']])
    # 水平合并Titanic数据集和哑变量的数据集
    Titanic = pd.concat([Titanic,dummy], axis = 1)
    # 删除原始的Sex、Embarked和Pclass变量
    Titanic.drop(['Sex','Embarked','Pclass'], inplace=True, axis = 1)
    Titanic.head()
    
    # 导入第三方包
    from sklearn import model_selection
    # 取出所有自变量名称
    predictors = Titanic.columns[1:]
    # 将数据集拆分为训练集和测试集,且测试集的比例为25%
    X_train, X_test, y_train, y_test = model_selection.train_test_split(Titanic[predictors], Titanic.Survived, 
                                                                        test_size = 0.25, random_state = 1234)
    
    # 导入第三方模块
    from sklearn.model_selection import GridSearchCV
    from sklearn import tree
    # 预设各参数的不同选项值
    max_depth = [2,3,4,5,6]
    min_samples_split = [2,4,6,8]
    min_samples_leaf = [2,4,8,10,12]
    # 将各参数值以字典形式组织起来
    parameters = {'max_depth':max_depth, 'min_samples_split':min_samples_split, 'min_samples_leaf':min_samples_leaf}
    # 网格搜索法,测试不同的参数值
    grid_dtcateg = GridSearchCV(estimator = tree.DecisionTreeClassifier(), param_grid = parameters, cv=10)
    # 模型拟合
    grid_dtcateg.fit(X_train, y_train)
    # 返回最佳组合的参数值
    grid_dtcateg.best_params_
    
    # 导入第三方模块
    from sklearn import metrics
    # 构建分类决策树
    CART_Class = tree.DecisionTreeClassifier(max_depth=3, min_samples_leaf = 4, min_samples_split=2)
    # 模型拟合
    decision_tree = CART_Class.fit(X_train, y_train)
    # 模型在测试集上的预测
    pred = CART_Class.predict(X_test)
    # 模型的准确率
    print('模型在测试集的预测准确率:\n',metrics.accuracy_score(y_test, pred))
    
    # 导入第三方包
    import matplotlib.pyplot as plt
    y_score = CART_Class.predict_proba(X_test)[:,1]
    fpr,tpr,threshold = metrics.roc_curve(y_test, y_score)
    # 计算AUC的值
    roc_auc = metrics.auc(fpr,tpr)
    
    # 绘制面积图
    plt.stackplot(fpr, tpr, color='steelblue', alpha = 0.5, edgecolor = 'black')
    # 添加边际线
    plt.plot(fpr, tpr, color='black', lw = 1)
    # 添加对角线
    plt.plot([0,1],[0,1], color = 'red', linestyle = '--')
    # 添加文本信息
    plt.text(0.5,0.3,'ROC curve (area = %0.2f)' % roc_auc)
    # 添加x轴与y轴标签
    plt.xlabel('1-Specificity')
    plt.ylabel('Sensitivity')
    # 显示图形
    plt.show()
    
    # 需要在电脑中安装Graphviz
    # https://graphviz.gitlab.io/_pages/Download/Download_windows.html
    # 然后将解压文件中的bin设置到环境变量中
    # 导入第三方模块
    from sklearn.tree import export_graphviz
    from IPython.display import Image
    import pydotplus
    from sklearn.externals.six import StringIO
    # 绘制决策树
    dot_data = StringIO()
    export_graphviz(
        decision_tree,
        out_file=dot_data,  
        feature_names=predictors,
        class_names=['Unsurvived','Survived'],  
        # filled=True,
        rounded=True,  
        special_characters=True
    )
    # 决策树展现
    graph = pydotplus.graph_from_dot_data(dot_data.getvalue())
    Image(graph.create_png()) 
    
    

    相关文章

      网友评论

          本文标题:决策树-1

          本文链接:https://www.haomeiwen.com/subject/thsanctx.html