【理论篇】决策树解决分类和回归问题

作者: 山药鱼儿 | 来源:发表于2022-01-09 07:56 被阅读0次

本篇文章是决策树理论篇系列连载文章的最后一篇，小鱼为大家介绍的是决策树在解决分类与回归问题时的差异。

前面的系列文章，基本上都是默认以分类问题为背景，来介绍决策树算法原理的。还是以下面的决策树为例：

在分类任务中，我们通过熵值、Gini 系数等衡量标准，来判断当前节点特征的分类能力，分类能力越强，则接下来样本的不确定性越小。

通过从根节点来选择节点特征，特征切分我们可以完成决策树的训练。那决策树构建完成之后，叶子节点所属的标签类别该如何确定呢？

对于分类任务，我们使用众数来确定叶子节点所属的标签类别。比如，上述决策树，我们判断的标签是是否喜欢刷短视频。

如图，决策树构造完成后，最右侧叶子节点有 3 个样本，我们通过判断这三个样本所属的标签，哪个标签更多，当前节点就属于这个标签。

在决策树算法系列文章第一篇的时候，小鱼说到：“决策树算法通过一系列规则对数据进行分类，既可以做分类也可以做回归。”决策树是可以解决回归任务的，只是评估标准与分类任务不同。

对于标签 y 是连续值的回归任务而言，是没有熵值，随机变量不确定性这么一说的。那如何来评判当前节点特征的分类能力呢？

试想一项，如果样本经过一个节点的划分之后，落在同一个节点上的样本，其标签数值如果差异非常小，甚至数值都一样，那是不是这个节点特征的分类能力就越强。

在数学上表示连续数值之间的差异，即离散层度的大小，当然就是我们熟悉的方差了。经过节点的划分后，方差越小，节点的分类能力就越强。

回归问题的节点选取标准使用方差来确定，分类问题的决策树节点选取使用熵、Gini系数等。此外，分类问题叶子节点标签的判断使用众数，回归问题则使用 平均数

以上就是决策树在解决分类和回归问题时的不同。下一节，开始我们将进入决策树算法的实战篇。我们下节见 (*￣︶￣)

网友评论

本文标题：【理论篇】决策树解决分类和回归问题

本文链接：https://www.haomeiwen.com/subject/vgtjcrtx.html

【理论篇】决策树解决分类和回归问题