美文网首页机器学习
【理论篇】决策树解决分类和回归问题

【理论篇】决策树解决分类和回归问题

作者: 山药鱼儿 | 来源:发表于2022-01-09 07:56 被阅读0次

    本篇文章是决策树理论篇系列连载文章的最后一篇,小鱼为大家介绍的是决策树在解决分类与回归问题时的差异。

    分类问题

    前面的系列文章,基本上都是默认以分类问题为背景,来介绍决策树算法原理的。还是以下面的决策树为例:

    在分类任务中,我们通过熵值、Gini 系数等衡量标准,来判断当前节点特征的分类能力,分类能力越强,则接下来样本的不确定性越小。

    通过从根节点来选择节点特征,特征切分我们可以完成决策树的训练。那决策树构建完成之后,叶子节点所属的标签类别该如何确定呢?

    对于分类任务,我们使用 众数 来确定叶子节点所属的标签类别。比如,上述决策树,我们判断的标签是是否喜欢刷短视频。

    如图,决策树构造完成后,最右侧叶子节点有 3 个样本,我们通过判断这三个样本所属的标签,哪个标签更多,当前节点就属于这个标签。

    回归问题

    在决策树算法系列文章第一篇的时候,小鱼说到:“决策树算法通过一系列规则对数据进行分类,既可以做分类也可以做回归。”决策树是可以解决回归任务的,只是评估标准与分类任务不同。

    对于标签 y 是连续值的回归任务而言,是没有熵值,随机变量不确定性这么一说的。那如何来评判当前节点特征的分类能力呢?

    试想一项,如果样本经过一个节点的划分之后,落在同一个节点上的样本,其标签数值如果差异非常小,甚至数值都一样,那是不是这个节点特征的分类能力就越强。

    在数学上表示连续数值之间的差异,即离散层度的大小,当然就是我们熟悉的 方差 了。经过节点的划分后,方差越小,节点的分类能力就越强。

    回归问题的节点选取标准使用方差来确定,分类问题的决策树节点选取使用熵、Gini系数等。此外,分类问题叶子节点标签的判断使用众数,回归问题则使用 平均数

    以上就是决策树在解决分类和回归问题时的不同。下一节,开始我们将进入决策树算法的实战篇。我们下节见 (* ̄︶ ̄)

    相关文章

      网友评论

        本文标题:【理论篇】决策树解决分类和回归问题

        本文链接:https://www.haomeiwen.com/subject/vgtjcrtx.html