如何提取出现在决策树节点的特征和标签

作者: 捡个七 | 来源:发表于2018-10-30 15:20 被阅读0次

如何提取出现在决策树节点的特征和标签
步步为营，有章可循：决策树
分类模型的机器学习算法
决策树学习笔记
【理论篇】决策树算法 - 特征如何切分？
机器学习-周志华决策树
决策树: 特征选择之寻找最优划分
决策树
基于AIE平台的决策树算法的黔东南州水稻提取
决策树

周末在完成教授的一个课堂作业。作业的内容如下，最后两点要求使用出现在决策树节点的特征组成新的数据集然后用于 MLP 进行分类。

作业内容

由于数据集给的是 .txt 文件，处理成 Excel 有些麻烦，因此就没有使用 Rapid Miner 来完成作业了。直接使用 Python 处理。作业中 2-2）的要求开始有些麻烦，没有头绪。在网上搜索了很久也没有找到类似的作业。最后，在查看 sklearn 决策树文档之后，有了解题思路。

首先，训练完决策树模型后，import graphviz 将训练的模型转换成决策树图，同时也会生成一个包含决策树信息的文件。如下代码所示：

# Export a graph of Decision Tree

import graphviz
dot_data = tree.export_graphviz(clf_dt, out_file=None, 
                            class_names = labels_names,node_ids=True,
                            filled=True, rounded=True,  
                            special_characters=True)
graph = graphviz.Source(dot_data)
graph.render('dt') # save as a pdf file

运行完代码后，会生成一个 dt.pdf 文件，同时也会生成一个 ‘dt’ 文件。dt.pdf 文件里面是决策树的图片，如下所示。需要注意的是，如果希望决策树模型的图片中出现 class 信息，则在需要在代码中设置 class_names = label_names。label_names 主要依据自己的数据集来设置，我的是手写数字识别的数据集，所以 label_names = np.array(['0','1','2','3','4','5','6','7','8','9'])。