美文网首页
决策树的剪枝

决策树的剪枝

作者: Janny238 | 来源:发表于2018-04-29 15:19 被阅读0次

决策树的剪枝

由于生成的决策树会存在过拟合的现象,需要对决策树进行简化,这个过程叫做剪枝。

剪枝可分为:预剪枝 和 后剪枝

预剪枝:基于信息增益准则,找出最佳分支结点时候通过验证集计算这个节点的验证集精度,如果该节点的划分不能提高验证集合的精度,那么这个节点将不允许被划分。预剪枝虽然降低了过拟合的风险,而且减少了训练时间和测试时间的开销,但这样也带来了欠拟合的风险。

后剪枝:对已经生成的决策树做剪枝操作。本章主要讲述后剪枝操作。

其实三种决策树(ID3、C4.5、CART)剪枝过程都相同,只是对当前树的评价标准不一样:信息增益、信息增益率、基尼指数。


CART剪枝

剪枝过程:

1.剪枝,形成一个子树序列T0,T1,T2....Tn

2.交叉验证,选最有子树

1.剪枝

决策树的剪枝往往通过极小化决策树整体的损失函数来实现。

在减持过程中指数的损失函数可以定义为。

以r为根的子树:

剪枝前的损失函数:

剪枝后的损失函数

只要令

将内部节点都算一遍,原来的树是R0,R0中剪去最小的Rt,得到R1。

同样在R1中剪去最小的Rt子树,得到R2

重新计算,一直这样剪枝下去,直到根节点

最后得到n个子树:R0,R1,R2......Rn

2.交叉验证,选取最优子树

利用验证数据集,测试各子树R0,R1,R2......Rn的平方误差和基尼指数,平方误差或者基尼指数最小的决策树被认为最优的决策树。

评价函数:

相关文章

  • 决策树的剪枝

    决策树的剪枝 由于生成的决策树会存在过拟合的现象,需要对决策树进行简化,这个过程叫做剪枝。 剪枝可分为:预剪枝 和...

  • 决策树的剪枝、连续与缺失

    剪枝处理 剪枝是决策树学习算法对付“过拟合”的主要手段。剪枝的基本策略有预剪枝和后剪枝两种。预剪枝是指在决策树生成...

  • 如何对决策树进行剪枝?

    如何对决策树进行剪枝? 决策树的剪枝通常有两种方法,预剪枝(Pre-Pruning)和后剪枝(Post- Prun...

  • 浅析决策树的生长和剪枝

    摘要:决策树剪枝策略:先剪枝、后剪枝,用于解决过拟合问题。 本文分享自华为云社区《浅析决策树的生长和剪枝[http...

  • 决策树剪枝(Decision Tree Pruning)

    1.决策树剪枝是什么?为什么要剪枝? 决策树的剪枝是将生成的树进行简化,以避免过拟合。 2.剪枝方法 2.1 预剪...

  • 决策树

    1、熵:定义为信息的期望值。表示随机变量不确定性的度量。 5、决策树剪枝策略预剪枝:边建立决策树边进行剪枝的操作(...

  • 决策树剪枝(损失函数和代价函数)

    决策树剪枝是简化已经生成的复杂的决策树,防止过拟合,使生成的决策更一般化,下面介绍决策树剪枝原理 t是树的叶节点,...

  • 决策树剪枝

    一颗完全生长的决策树难免会遇到过拟合的情况。因此,我们需要对决策树进行剪枝,提升模型的泛化能力。 决策树的剪枝操作...

  • python tree

    决策树理论 决策树ID3 信息增益C4.5 信息增益率CART 基尼系数前剪枝,后剪枝 from math imp...

  • 决策树要点总结

    1、决策树的学习:特征选择、决策树的生成、决策树的剪枝 2、Greedy decision tree learni...

网友评论

      本文标题:决策树的剪枝

      本文链接:https://www.haomeiwen.com/subject/pipcdxtx.html