美文网首页
【理论篇】决策树剪枝策略

【理论篇】决策树剪枝策略

作者: 山药鱼儿 | 来源:发表于2022-01-08 16:10 被阅读0次

首先,我们来思考一个问题:决策树为什么要进行剪枝呢?试想一下,如果决策树足够庞大,无限分裂下去,直到每个叶子节点的熵值都为 0 。

这个时候,分类结果没有不确定性,100%准确。这样的决策树最终的结果就是训练集表现非常完美,测试集表现非常糟糕。因此,我们说决策树过拟合的风险很大,理论上可以完全分得开数据。

过拟合:训练集表现接近完美,测试集则表现很差。想象一下,训练模型时,我们是带着标签(正确答案)进行的,就好像我们平时做练习册,边做边对答案,或者干脆看着答案做,做得非常好,但一到考试就掉链子。这就是过拟合,死读书,没有掌握问题的一般规律和方法,过度依赖答案。

决策树的剪枝策略包括预剪枝和后剪枝。

预剪枝

预剪枝是指边建立决策树边进行剪枝的操作,也是我们实际决策树训练时更常用的方法,更实用。

常见的预剪枝策略有:限制深度、叶子节点个数、叶子节点样本数、信息增益量等。下面,小鱼拿下面的决策树举例,为大家分别做个简单的解释。

限制深度
通过限制深度可以阻止决策树继续向下无限的分裂。比如,上图中,我们限制决策树深度为 3 ,则到达第三层时就全部是叶子节点而不会继续向下分裂了。

叶子节点个数
通过限制决策树最多只能包含多少个叶子节点来限制无限分裂。比如,上图中,我们限制叶子节点个数最多为 4 个,则达到 4 个叶子节点之后,就要停止分裂了。

叶子节点样本数
限制每个叶子节点至少包含多少个样本个数,因为决策树理论上可以分裂到每个叶子节点只有一个样本的野蛮状态。比如,上图中我们可以通过限制每个叶子节点至少包含 1095 个样本,那最右侧的叶子节点就不能继续向下分裂了,到此为止。

信息增益量
通过信息增益量预剪枝具体指某个叶子节点分裂前,其信息增益为 G1,继续分裂后,信息增益变为了 G2,如果 G1 - G2 的值非常小,那就该节点就没必要继续分裂了。

后剪枝

当建立完决策树之后,再来进行剪枝操作。后剪枝策略实际使用的非常少,我们了解即可。

厚剪枝的实现依赖于如下的衡量标准:

上述公式,等式左侧代表最终损失,我们希望决策树最终损失越小越好。等式右侧分别为当前结点的熵或 Gini 系数,参数 α 由用户指定,Tleaf 当前结点分裂后,产生的叶子节点个数。叶子节点越多,损失越大。

注:α 越大代表我们越不希望模型过拟合;反之 α 越小,则表示我们更希望在训练集追求好的结果,过不过拟合不是很在意。

下面,小鱼以如下的决策树为例,说明后剪枝策略中的损失函数如何计算。

图中,红色节点在分列前的损失为:0.4444 * 6 + α ;分裂后的损失需要计算左子树(蓝色)和右子树(绿色)的 gini 系数之和:0*3 + 0.4444*3 + α*2

以上就是决策树剪枝策略的所有内容啦~其中,前剪枝策略是需要我们重点掌握的。

相关文章

  • 【理论篇】决策树剪枝策略

    首先,我们来思考一个问题:决策树为什么要进行剪枝呢?试想一下,如果决策树足够庞大,无限分裂下去,直到每个叶子节点的...

  • 决策树的剪枝、连续与缺失

    剪枝处理 剪枝是决策树学习算法对付“过拟合”的主要手段。剪枝的基本策略有预剪枝和后剪枝两种。预剪枝是指在决策树生成...

  • 浅析决策树的生长和剪枝

    摘要:决策树剪枝策略:先剪枝、后剪枝,用于解决过拟合问题。 本文分享自华为云社区《浅析决策树的生长和剪枝[http...

  • python tree

    决策树理论 决策树ID3 信息增益C4.5 信息增益率CART 基尼系数前剪枝,后剪枝 from math imp...

  • 决策树

    1、熵:定义为信息的期望值。表示随机变量不确定性的度量。 5、决策树剪枝策略预剪枝:边建立决策树边进行剪枝的操作(...

  • 决策树(Decision Tree)算法

    1 理论部分 需要弄清楚几个概念信息熵,决策树,决策树优化, 剪枝 ,决策树可视化 1 信息熵(Entropy 单...

  • 决策树的剪枝

    决策树的剪枝 由于生成的决策树会存在过拟合的现象,需要对决策树进行简化,这个过程叫做剪枝。 剪枝可分为:预剪枝 和...

  • 决策树剪枝策略

    总结了一下今天接触到的新概念,如果有问题欢迎大家指出来: 深度优先搜索(Depth-First-Search 简称...

  • 如何对决策树进行剪枝?

    如何对决策树进行剪枝? 决策树的剪枝通常有两种方法,预剪枝(Pre-Pruning)和后剪枝(Post- Prun...

  • 决策树剪枝(Decision Tree Pruning)

    1.决策树剪枝是什么?为什么要剪枝? 决策树的剪枝是将生成的树进行简化,以避免过拟合。 2.剪枝方法 2.1 预剪...

网友评论

      本文标题:【理论篇】决策树剪枝策略

      本文链接:https://www.haomeiwen.com/subject/ojzhcrtx.html