决策树

作者: 程序猿爱打DOTA | 来源:发表于2017-04-22 21:05 被阅读0次

机器学习6-决策树
决策树
决策树
决策树算法总结
机器学习 - 决策树算法[一]
机器学习系列（三十六）——回归决策树与决策树总结
[机器学习]决策树
经典机器学习系列之【决策树详解】
第5章决策树
决策树与随机森林

是使用频率最高的数据挖掘算法，原因是不需要了解机器学习的知识也能搞明白决策树是怎么工作。

优势：数据形式非常容易理解，可以从不熟悉的数据集合中提取出一系列规则，计算复杂度不高，对中间值的缺失不敏感，可以处理不相关特征数据

缺点：可能会产生过度匹配问题

使用数据范围：数值型和标称型

基尼不纯度：从一个数据集中随机选取子项，度量其被错误分类到其他分组里的概率。

信息增益：计算每个特征值划分数据集获得的信息增益，获得信息增益最高的特征就是最好的选择

熵定义为信息的期望值，如果待分类的事务可能划分在多个分类中，则符号Xi的信息定义为l(Xi)=-lgP(Xi),P(Xi)是选择该分类的概率，所有类别所有可能值包含的信息期望值E=-∑P(Xi)lgP(Xi)

信息表示

算法流程：

每次遍历特征，对数据集按此特征进行划分后，计算数据集的新熵值，并对所以唯一特征值得到的熵求和，和越小，划分结果越有序，用此特征划分效果越好。

递归构建决策树，直到遍历完所有划分数据集的属性，或者每个分枝下的所有实例都具有相同的分类

C4.5

信息增益准则会对可能取值数目较多的属性有所偏好，为了减少这种偏好带来的不良影响，考虑内在信息量，使用信息增益率

内在信息

信息增益率

特征的重要性会随着其内在信息（Intrinsic Information）的增大而减小。信息增益率作为一种补偿（Compensate）措施来解决信息增益所存在的问题，但是它也有可能导致过分补偿，而选择那些内在信息很小的特征，这一点可以尝试：首先，仅考虑那些信息增益超过平均值的特征，其次再比较信息增益。

CART

使用基尼不纯度进行划分