美文网首页
如何对决策树进行剪枝?

如何对决策树进行剪枝?

作者: GhostintheCode | 来源:发表于2020-03-07 16:37 被阅读0次

如何对决策树进行剪枝?

决策树的剪枝通常有两种方法,预剪枝(Pre-Pruning)和后剪枝(Post- Pruning)。那么这两种方法是如何进行的呢?它们又各有什么优缺点?
■ 预剪枝
预剪枝的核心思想是在树中结点进行扩展之前,先计算当前的划分是否能带 来模型泛化能力的提升,如果不能,则不再继续生长子树。此时可能存在不同类 别的样本同时存于结点中,按照多数投票的原则判断该结点所属类别。预剪枝对 于何时停止决策树的生长有以下几种方法。
(1)当树到达一定深度的时候,停止树的生长。
(2)当到达当前结点的样本数量小于某个阈值的时候,停止树的生长。
(3)计算每次分裂对测试集的准确度提升,当小于某个阈值的时候,不再继 续扩展。
预剪枝具有思想直接、算法简单、效率高等特点,适合解决大规模问题。但 如何准确地估计何时停止树的生长(即上述方法中的深度或阈值),针对不同问 题会有很大差别,需要一定经验判断。且预剪枝存在一定局限性,有欠拟合的风 险,虽然当前的划分会导致测试集准确率降低,但在之后的划分中,准确率可能 会有显著上升。
■ 后剪枝
后剪枝的核心思想是让算法生成一棵完全生长的决策树,然后从最底层向上
计算是否剪枝。剪枝过程将子树删除,用一个叶子结点替代,该结点的类别同样 按照多数投票的原则进行判断。同样地,后剪枝也可以通过在测试集上的准确率 进行判断,如果剪枝过后准确率有所提升,则进行剪枝。相比于预剪枝,后剪枝 方法通常可以得到泛化能力更强的决策树,但时间开销会更大。
常见的后剪枝方法包括错误率降低剪枝(Reduced Error Pruning,REP)、悲 观剪枝(Pessimistic Error Pruning,PEP)、代价复杂度剪枝(Cost Complexity Pruning,CCP)、最小误差剪枝(Minimum Error Pruning,MEP)、CVP(Critical Value Pruning)、OPP(Optimal Pruning)等方法,这些剪枝方法各有利弊,关注 不同的优化角度,本文选取著名的CART剪枝方法CCP进行介绍。
代价复杂剪枝主要包含以下两个步骤。





相关文章

  • 如何对决策树进行剪枝?

    如何对决策树进行剪枝? 决策树的剪枝通常有两种方法,预剪枝(Pre-Pruning)和后剪枝(Post- Prun...

  • 决策树的剪枝

    决策树的剪枝 由于生成的决策树会存在过拟合的现象,需要对决策树进行简化,这个过程叫做剪枝。 剪枝可分为:预剪枝 和...

  • 决策树剪枝(Decision Tree Pruning)

    1.决策树剪枝是什么?为什么要剪枝? 决策树的剪枝是将生成的树进行简化,以避免过拟合。 2.剪枝方法 2.1 预剪...

  • 决策树

    1、熵:定义为信息的期望值。表示随机变量不确定性的度量。 5、决策树剪枝策略预剪枝:边建立决策树边进行剪枝的操作(...

  • 决策树剪枝

    一颗完全生长的决策树难免会遇到过拟合的情况。因此,我们需要对决策树进行剪枝,提升模型的泛化能力。 决策树的剪枝操作...

  • 决策树的剪枝、连续与缺失

    剪枝处理 剪枝是决策树学习算法对付“过拟合”的主要手段。剪枝的基本策略有预剪枝和后剪枝两种。预剪枝是指在决策树生成...

  • 浅析决策树的生长和剪枝

    摘要:决策树剪枝策略:先剪枝、后剪枝,用于解决过拟合问题。 本文分享自华为云社区《浅析决策树的生长和剪枝[http...

  • 亲手实现决策树(二)

    决策树图像化显示及剪枝 1.决策树可视化 在上一节(亲手实现决策树(一))中,我们利用print_tree进行了文...

  • 用于分类的决策树的理解

    决策树学习的三个步骤:特征选择,决策树生成,决策树剪枝。 特征选择 特征选择在于选取对训练数据具有分类能力的特征。...

  • python tree

    决策树理论 决策树ID3 信息增益C4.5 信息增益率CART 基尼系数前剪枝,后剪枝 from math imp...

网友评论

      本文标题:如何对决策树进行剪枝?

      本文链接:https://www.haomeiwen.com/subject/dflikhtx.html