美文网首页机器学习
【理论篇】决策树算法 - 特征如何切分?

【理论篇】决策树算法 - 特征如何切分?

作者: 山药鱼儿 | 来源:发表于2022-01-07 07:26 被阅读0次

决策树算法连载的系列文章,小鱼已经为大家介绍了决策树算法的特征选取:即从根节点开始,按照分类能力的强弱选取节点特征,其中根节点的分类能力最强。

关于分类能力强弱的评估方法,小鱼为大家介绍了三种:

  • ID3 决策树算法:使用信息增益进行评估(不能评估分布非常稀疏,即特征自身熵值非常大的节点)。
  • C4.5 决策树算法:在计算信息增益时考虑特征自身的熵值,解决了 ID3 评估稀疏特征的缺点。
  • CART 决策树算法:使用 GINI 系数评估随机变量的不确定性。GINI 系数和熵的衡量标准类似,只是计算方式不同。

以上,我们就解决了如何选取特征的问题。今天,我们来学习关于构造决策树须要我们解决的另一个问题:特征如何切分?

这里的特征指的是连续特征,大家还记得小鱼在第一篇文章介绍决策树算法原理的例子吗:

图中根节点为 age < 15 ,那为什么是 age<15 呢?小于 20 可以吗?小于 10 呢?

这就涉及到了连续型特征的离散化过程:即如何进行数据切分。下面,我们从一个例子来说明就好。

假设数据集 A 中有一列关于体重的特征 weight,取值为:

weight
125
100
70
120
95
60
220
85
75
90

接下来,我们对数值进行排序:

假如我们对上述数据进行 “二分” ,则共计有 9 个分界点。比如:在 75 和 85 之间切一刀:

这时,体重值为 60,70,75 的样本将会落在分支的一侧,其余样本落在分支的另一侧。然后我们使用信息增益、信息增益率等方式评估当前的分类效果。

以此类推,我们就可以计算出所有切分点的分类能力,最后选择分类能力最强的位置进行数据集的切分。

以上就是今天的全部内容啦~截止目前,我们已经了解了特征如何选取以及特征的切分这两个构造决策树的问题。

我们经常看到马路边,小区里工人在修剪树枝,保持树的整齐,避免野蛮生长。我们的决策树也需要剪枝,下一节我们就来学习决策树的剪枝策略!

相关文章

  • 【理论篇】决策树算法 - 特征如何切分?

    决策树算法连载的系列文章,小鱼已经为大家介绍了决策树算法的特征选取:即从根节点开始,按照分类能力的强弱选取节点特征...

  • 统计学习方法思路疏导—决策树

    决策树 算法过程 特征选择 生成决策树 决策树兼职 特征选择 选择下面 2 指标作为特征选择的依据 信息增益:使用...

  • 李航-第5章决策树

    决策树的学习算法包特征选择、决策树的生成与决策树的剪枝过程。决策树学习应用信息增益准则选择特征。信息增益大的特征具...

  • 十大数据挖掘算法之CART回归树

    一、CART回归树概述 决策树算法的关键在于选择最佳划分特征及特征重最佳划分点位置,即划分算法。ID3决策树的划分...

  • ID3算法实现决策树

    1.ID.3算法 1.1算法原理: 算法的核心是在决策树各个节点上,应用信息增益准则选择特征,递归的构建决策树。算...

  • 决策树

    决策树算法 一、特征选取 特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习的效率。如果利用一个...

  • 决策树

    决策树 决策树模型与学习 特征选择 决策树的生成 决策树的剪枝 CART 算法 决策树模型呈树形结构,在分类问题中...

  • 决策树: 特征选择之寻找最优划分

    前言决策树算法的三个步骤:特征选择、决策树生成、决策树剪枝。其中特征选择要解决的核心问题就是:每个节点在哪个维度上...

  • 第5章 决策树

    内容 一、决策树内容简介 二、决策树的模型与学习 三、特征选择 四、决策树生成 五、决策树剪枝 六、CART算法 ...

  • 数据科学(机器学习: 决策树(ID3算法 ))

    决策树构建 ID3算法 ID3算法的核心是在决策树各个结点上对应信息增益准则选择特征,递归地构建决策树。 从根结点...

网友评论

    本文标题:【理论篇】决策树算法 - 特征如何切分?

    本文链接:https://www.haomeiwen.com/subject/pdzhcrtx.html