美文网首页
1-3 决策树的剪枝

1-3 决策树的剪枝

作者: 迪丽娜扎 | 来源:发表于2018-12-09 15:40 被阅读0次

决策树的剪枝这件事,只需记住一点:千万别把它想复杂了。

在1-1中介绍了决策树节点划分的三个终止条件,在1-2中介绍了决策树节点划分的特征选择的三个依据。这就已经掌握了用一个样本集生成一棵决策树的几乎全部姿势。那么剪枝用来解决什么问题?

前面0-1中说到把数据集划分成训练集测试集验证集等等的几种方法。解决过拟合的基本操作,就是搞个验证集或测试集,训练集训出来的模型去验证集上验一验是不是过拟合了,如果是的话要想办法修正一下。而剪枝本质上就是在干这么一件事:简化模型,防止过拟合。具体的策略则有预剪枝后剪枝两种。

1. 预剪枝

设想我们正在使用一个训练集生成一个决策树,此时此刻正在某个节点上选取了某个特征对该节点进行进一步的划分。不管我们使用信息增益、信息增益比还是基尼系数,此时我们选定了这个特征进行划分,划分后的树对训练集的区分能力肯定是变好了。but wait,这个变好有可能是模型进一步学到了数据的真实规律,也有可能是在训练集上的过拟合导致的。怎么办?拿去到验证集上验一验。我们事先定一个性能指标,比如准确率什么的(具体可以参考0-2),然后对比前面所说的节点划分前后,模型在验证集上的性能指标是上升还是下降了,如果上升了,OK,那就划分。如果不升反降,或者至少没有提升,那就算了,不要划了,到此为止吧。这就叫预剪枝。

2. 后剪枝

理解了剪枝的本质,则不管是预剪枝还是后剪枝都是简单明了的了。后剪枝的意思就是先不管验证集,先在训练集上一顿划分,生成一棵可能特别深的树,然后拿这棵树去验证集验证,从最深的子节点开始往上屡,对比的还是节点划分前后树在验证集上的表现,如果划分后表现变差,说明这次划分是对训练集的过拟合,那就剪掉,把子树合并成叶节点。

相关文章

  • 决策树的剪枝

    决策树的剪枝 由于生成的决策树会存在过拟合的现象,需要对决策树进行简化,这个过程叫做剪枝。 剪枝可分为:预剪枝 和...

  • 决策树的剪枝、连续与缺失

    剪枝处理 剪枝是决策树学习算法对付“过拟合”的主要手段。剪枝的基本策略有预剪枝和后剪枝两种。预剪枝是指在决策树生成...

  • 如何对决策树进行剪枝?

    如何对决策树进行剪枝? 决策树的剪枝通常有两种方法,预剪枝(Pre-Pruning)和后剪枝(Post- Prun...

  • 浅析决策树的生长和剪枝

    摘要:决策树剪枝策略:先剪枝、后剪枝,用于解决过拟合问题。 本文分享自华为云社区《浅析决策树的生长和剪枝[http...

  • 决策树剪枝(Decision Tree Pruning)

    1.决策树剪枝是什么?为什么要剪枝? 决策树的剪枝是将生成的树进行简化,以避免过拟合。 2.剪枝方法 2.1 预剪...

  • 1-3 决策树的剪枝

    决策树的剪枝这件事,只需记住一点:千万别把它想复杂了。 在1-1中介绍了决策树节点划分的三个终止条件,在1-2中介...

  • 决策树

    1、熵:定义为信息的期望值。表示随机变量不确定性的度量。 5、决策树剪枝策略预剪枝:边建立决策树边进行剪枝的操作(...

  • 决策树剪枝(损失函数和代价函数)

    决策树剪枝是简化已经生成的复杂的决策树,防止过拟合,使生成的决策更一般化,下面介绍决策树剪枝原理 t是树的叶节点,...

  • 决策树剪枝

    一颗完全生长的决策树难免会遇到过拟合的情况。因此,我们需要对决策树进行剪枝,提升模型的泛化能力。 决策树的剪枝操作...

  • python tree

    决策树理论 决策树ID3 信息增益C4.5 信息增益率CART 基尼系数前剪枝,后剪枝 from math imp...

网友评论

      本文标题:1-3 决策树的剪枝

      本文链接:https://www.haomeiwen.com/subject/uhxkhqtx.html