决策树的构建算法过程:

一般地对于步骤8选取最优划分属性规则不同,将决策树分为ID3算法、C4.5、CART算法
ID3算法
1.信息熵

2.信息增益

3.划分规则
每次选择信息增益最大的构建决策树。
4.决策树示例

C4.5算法
利用最大增益率构建决策树
1.信息增益率

CART算法
利用基尼指数(反映属性的纯度)最小的属性作为划分属性

剪枝处理

剪枝处理主要分为预剪枝和后剪枝。
1.预剪枝
对于决策树从上往下评价每个节点,将每个节点的分支用类别标记为训练样例数最多的类别,然后计算剪枝前和剪枝后的精度,如果精度有所提高,则进行剪枝,否则不进行剪枝。


2.后剪枝
对于决策树从下往上评价每个节点,将每个节点的分支用类别标记为训练样例数最多的类别,然后计算剪枝前和剪枝后的精度,如果精度有所提高,则进行剪枝,否则不进行剪枝。

网友评论