美文网首页
决策树总结

决策树总结

作者: yesski | 来源:发表于2019-01-01 17:24 被阅读0次

常规的决策树id3.c4.5 cart 构建了树这个体系的根基
https://blog.csdn.net/u012328159/article/details/79285214
这次看到的讲到的 主要来自这个博客,当然这个博客的内容是西瓜书里面的原内容,只不过有了电子版的,算是给自己复习了一下。
其实面试过程中,决策树的剪枝,决策树连续值,缺失值的处理还是经常被问到。
所以在这写一写自己的理解,加深印象

1.剪枝

1.为什么要剪枝
2.如何剪枝
对于第一个问题:无论是根据信息增益还是信息增益率,还是基尼系数,决策树一直生长下去本身就会过拟合,通过剪枝来提升树模型的泛化能力,防止树的过拟合
对于第二个问题:如何剪枝?
在剪枝的时候,我们要明确一个目的,就是剪枝好坏的评价标准是什么?评价标准就是, 剪枝前后,模型在测试集中的表现如何(即模型的泛化能力),以此来剪枝
剪枝的方式有两种,预剪枝和后剪枝
预剪枝:预剪枝就是在构造决策树的过程中,先对每个结点在划分前进行估计,若果当前结点的划分不能带来决策树模型泛华性能的提升,则不对当前结点进行划分并且将当前结点标记为叶结点。

后剪枝(post-pruning):后剪枝就是先把整颗决策树构造完毕,然后自底向上的对非叶结点进行考察,若将该结点对应的子树换为叶结点能够带来泛华性能的提升,则把该子树替换为叶结点。

预剪枝总结: 对比未剪枝的决策树和经过预剪枝的决策树可以看出:预剪枝使得决策树的很多分支都没有“展开”,这不仅降低了过拟合的风险,还显著减少了决策树的训练时间开销和测试时间开销。但是,另一方面,因为预剪枝是基于“贪心”的,所以,虽然当前划分不能提升泛华性能,但是基于该划分的后续划分却有可能导致性能提升,因此预剪枝决策树有可能带来欠拟合的风险。

后剪枝总结:对比预剪枝和后剪枝,能够发现,后剪枝决策树通常比预剪枝决策树保留了更多的分支,一般情形下,后剪枝决策树的欠拟合风险小,泛华性能往往也要优于预剪枝决策树。但后剪枝过程是在构建完全决策树之后进行的,并且要自底向上的对树中的所有非叶结点进行逐一考察,因此其训练时间开销要比未剪枝决策树和预剪枝决策树都大得多。

连续值处理

连续值处理
因为连续属性的可取值数目不再有限,因此不能像前面处理离散属性枚举离散属性取值来对结点进行划分。因此需要连续属性离散化,常用的离散化策略是二分法,这个技术也是C4.5中采用的策略。下面来具体介绍下,如何采用二分法对连续属性离散化:


image.png

有一点需要注意的是:与离散属性不同,若当前结点划分属性为连续属性,该属性还可作为其后代结点的划分属性。如下图所示的一颗决策树,“含糖率”这个属性在根节点用了一次,后代结点也用了一次,只是两次划分点取值不同。

image.png

缺失值处理

现实生活中的数据集中的样本通常在某系属性上是缺失的,如果属性值缺失的样本数量比较少,我们可以直接简单粗暴的把不完备的样本删除掉,但是如果有大量的样本都有属性值的缺失,那么就不能简单地删除,因为这样删除了大量的样本,对于机器学习模型而言损失了大量有用的信息,训练出来的模型性能会受到影响。

在决策树中处理含有缺失值的样本的时候,需要解决两个问题:
如何在属性值缺失的情况下进行划分属性的选择?(比如“色泽”这个属性有的样本在该属性上的值是缺失的,那么该如何计算“色泽”的信息增益?)
给定划分属性,若样本在该属性上的值是缺失的,那么该如何对这个样本进行划分?(即到底把这个样本划分到哪个结点里?)

image.png

概括来说就是:比如17个样本里面,色泽这个属性缺失的有2个,那么计算色泽的信息增益的时候,把那两个缺失的去掉,只算这15个的信息增益的情况
比如 最后确定按色泽进行划分, 则把15个样本分成了 5 4 6 三个分支
那么剩下来的2个缺失值的样本如何分?是按照5/15 4/15 6/15的权重分别进入这三个的分支进行计算,而不缺失的值的样本的权重为1,就是这样。。。。

立个flag,有空一定看看
gcForest,树的深度模型

相关文章

  • 决策树算法总结

    目录 一、决策树算法思想 二、决策树学习本质 三、总结 一、决策树(decision tree)算法思想: 决策树...

  • 机器学习系列(三十六)——回归决策树与决策树总结

    本篇主要内容:回归决策树原理、回归树学习曲线、决策树总结 回归决策树原理 回归决策树树是用于回归的决策树模型,回归...

  • 决策树

    本周学了一种非要重要也非常基础的核心分类算法——决策树。下面对决策树算法做一个总结:) 决策树(decision ...

  • ID3/C4.5/CART决策树算法推导

    目录 一、ID3决策树 二、C4.5决策树 三、CART决策树 四、总结 信息熵——度量样本集合纯度最常用一种指标...

  • 刘润商学院日课总结12.11

    今日总结:决策树 决策树,就是把决策点画出来,以便用这种方式更好的找到自己要用的方案。

  • ID3和C4.5决策树算法总结及其ID3Python实现

    ID3和C4.5决策树算法总结及其ID3Python实现 1.决策树的算法流程 决策树的算法流程主要是:1.如果当...

  • 决策树——ID3、C4.5、CART

    本篇开始总结一下以决策树为基础的模型,当然本篇的内容就是决策树了,决策树可以用来分类也可以用来回归,用作分类的应该...

  • CSS居中完全指南——构建CSS居中决策树

    CSS居中完全指南——构建CSS居中决策树 本文总结CSS居中,包括水平居中和垂直居中.本文相当于CSS决策树,下...

  • 从决策树、GBDT到XGBoost和LightGBM总结

    一、决策树 决策树的构建还是基于我们传统的数据结构与算法的基础上面延伸而来的,下面的思维导图简单的总结了一下决策树...

  • [笔记]决策树

    本文主要介绍了决策树的原理及算法 决策树的工作原理 决策树基本上就是把我们以前的经验总结出来。我给你准备了一个打篮...

网友评论

      本文标题:决策树总结

      本文链接:https://www.haomeiwen.com/subject/dsnnlqtx.html