决策树算法连载的系列文章,小鱼已经为大家介绍了决策树算法的特征选取:即从根节点开始,按照分类能力的强弱选取节点特征,其中根节点的分类能力最强。
关于分类能力强弱的评估方法,小鱼为大家介绍了三种:
- ID3 决策树算法:使用信息增益进行评估(不能评估分布非常稀疏,即特征自身熵值非常大的节点)。
- C4.5 决策树算法:在计算信息增益时考虑特征自身的熵值,解决了 ID3 评估稀疏特征的缺点。
- CART 决策树算法:使用 GINI 系数评估随机变量的不确定性。GINI 系数和熵的衡量标准类似,只是计算方式不同。
以上,我们就解决了如何选取特征的问题。今天,我们来学习关于构造决策树须要我们解决的另一个问题:特征如何切分?
这里的特征指的是连续特征,大家还记得小鱼在第一篇文章介绍决策树算法原理的例子吗:
图中根节点为 age < 15
,那为什么是 age<15
呢?小于 20 可以吗?小于 10 呢?
这就涉及到了连续型特征的离散化过程:即如何进行数据切分。下面,我们从一个例子来说明就好。
假设数据集 A 中有一列关于体重的特征 weight
,取值为:
weight
125
100
70
120
95
60
220
85
75
90
接下来,我们对数值进行排序:
假如我们对上述数据进行 “二分” ,则共计有 9 个分界点。比如:在 75 和 85 之间切一刀:
这时,体重值为 60,70,75 的样本将会落在分支的一侧,其余样本落在分支的另一侧。然后我们使用信息增益、信息增益率等方式评估当前的分类效果。
以此类推,我们就可以计算出所有切分点的分类能力,最后选择分类能力最强的位置进行数据集的切分。
以上就是今天的全部内容啦~截止目前,我们已经了解了特征如何选取以及特征的切分这两个构造决策树的问题。
我们经常看到马路边,小区里工人在修剪树枝,保持树的整齐,避免野蛮生长。我们的决策树也需要剪枝,下一节我们就来学习决策树的剪枝策略!
网友评论