决策树

作者: Gene_Chung | 来源:发表于2018-11-28 23:11 被阅读0次

机器学习6-决策树
决策树
决策树
决策树算法总结
机器学习 - 决策树算法[一]
机器学习系列（三十六）——回归决策树与决策树总结
[机器学习]决策树
经典机器学习系列之【决策树详解】
第5章决策树
决策树与随机森林

概要

决策树算法主要包括：特征的选择，树的生成，树的剪枝。
常用的算法有ID3，C4.5，CART。

基本名词解释：（不懂的建议自行google）
信息熵 & 信息增益
熵：熵（entropy）指的是体系的混乱的程度，在不同的学科中也有引申出的更为具体的定义，是各领域十分重要的参量。
信息熵（香农熵）：是一种信息的度量方式，表示信息的混乱程度，也就是说：信息越有序，信息熵越低。例如：火柴有序放在火柴盒里，熵值很低，相反，熵值很高。

决策树的特征选择

决策树特征选择的关键是其规则，常用的有：
1.信息增益（ID3）
2.信息增益比（C4.5）
3.基尼系数（CART）

决策树的生成

决策树生成通过计算信息增益或者其他指标，从根节点出发，递归地产生决策树，相当于泳信息增益或者其他准则不断地迭代选取局部最优的特征。

决策树的剪枝

由于决策树存在过拟合问题，需进行剪枝获得局部最优的算法。剪枝从生成树剪掉一些叶节点或者叶节点以上的子树，将其父节点和根节点作为新的叶节点，从而简化生成的决策树。

决策树算法特点

优点：计算复杂度不高，输出结果易于理解，对中间值的缺失不敏感，可以处理不相关特征数据。
缺点：可能会产生过度匹配问题。
适用数据类型：数值型和标称型。

决策树工作原理
如何构造一个决策树?
我们使用 createBranch() 方法，如下所示：

检测数据集中的所有数据的分类标签是否相同:
    If so return 类标签
    Else:
        寻找划分数据集的最好特征（划分之后信息熵最小，也就是信息增益、信息增益比最大或者基尼基尼系数最小的特征）
        划分数据集
        创建分支节点
            for 每个划分的子集
                调用函数 createBranch （创建分支的函数）并增加返回结果到分支节点中
        return 分支节点

决策树基本开发流程
收集数据：可以使用任何方法。
准备数据：树构造算法只适用于标称型数据，因此数值型数据必须离散化。
分析数据：可以使用任何方法，构造树完成之后，我们应该检查图形是否符合预期。
训练算法：构造树的数据结构。
测试算法：使用经验树计算错误率。（经验树没有搜索到较好的资料，有兴趣的同学可以来补充）
使用算法：此步骤可以适用于任何监督学习算法，而使用决策树可以更好地理解数据的内在含义。