本篇文章是决策树理论篇系列连载文章的最后一篇,小鱼为大家介绍的是决策树在解决分类与回归问题时的差异。
分类问题
前面的系列文章,基本上都是默认以分类问题为背景,来介绍决策树算法原理的。还是以下面的决策树为例:
在分类任务中,我们通过熵值、Gini 系数等衡量标准,来判断当前节点特征的分类能力,分类能力越强,则接下来样本的不确定性越小。
通过从根节点来选择节点特征,特征切分我们可以完成决策树的训练。那决策树构建完成之后,叶子节点所属的标签类别该如何确定呢?
对于分类任务,我们使用 众数 来确定叶子节点所属的标签类别。比如,上述决策树,我们判断的标签是是否喜欢刷短视频。
如图,决策树构造完成后,最右侧叶子节点有 3 个样本,我们通过判断这三个样本所属的标签,哪个标签更多,当前节点就属于这个标签。
回归问题
在决策树算法系列文章第一篇的时候,小鱼说到:“决策树算法通过一系列规则对数据进行分类,既可以做分类也可以做回归。”决策树是可以解决回归任务的,只是评估标准与分类任务不同。
对于标签 y
是连续值的回归任务而言,是没有熵值,随机变量不确定性这么一说的。那如何来评判当前节点特征的分类能力呢?
试想一项,如果样本经过一个节点的划分之后,落在同一个节点上的样本,其标签数值如果差异非常小,甚至数值都一样,那是不是这个节点特征的分类能力就越强。
在数学上表示连续数值之间的差异,即离散层度的大小,当然就是我们熟悉的 方差 了。经过节点的划分后,方差越小,节点的分类能力就越强。
回归问题的节点选取标准使用方差来确定,分类问题的决策树节点选取使用熵、Gini系数等。此外,分类问题叶子节点标签的判断使用众数,回归问题则使用 平均数
以上就是决策树在解决分类和回归问题时的不同。下一节,开始我们将进入决策树算法的实战篇。我们下节见 (* ̄︶ ̄)
网友评论