美文网首页
决策树知识总结

决策树知识总结

作者: 刘单纯 | 来源:发表于2020-03-18 17:30 被阅读0次
  1. 简述决策树的原理
    决策树的实质就是一系列的if-else,根据决策条件,从根节点走到叶子节点。对于分类问题,根据叶子结点的标签进行投票决定;对于回归问题是根据叶子节点的均值作为预测值

  2. 信息量

  • 发生概率越低的事件信息量越大
  • 信息量必须大于0
  • 信息量的累加性
    基于上述三个特性,一个事件的信息量公式定义为h(x)= -log p(x)
  1. 信息熵
    信息熵是度量信息“纯度”的指标。信息熵越大,越不纯。例如一张二维表,学号字段相比性别字段,信息熵要大得多


    信息熵.png
  2. 决策树结点划分

    • ID3
      ID3是基于信息增益作为节点划分的标准,选择信息增益最大进行划分。

      image.png
    • C4.5
      由于ID3只考虑了信息增益,没有考虑分裂字段本身的“信息熵”。假如有一个字段“学号”,每个学号对应唯一的label,那么根据信息增益公式,这个字段的信息增益一定是最大的,但是这个字段真的适合分裂吗?肯定不是的。C4.5相比ID3,优化了分裂倾向选择类别多的字段,选择信息增益率最大进行划分

      image.png
    • CART
      cart是基于基尼系数进行划分,分别计算各字段的基尼系数,选择最小的字段进行分裂,公式如下


      image.png
  3. ID3,C4.5,CART对比


    image.png
  4. 树的剪枝
    通过剪枝可以防止树节点过拟合,提高模型的泛化能力。剪枝方式分两种,预剪枝后剪枝。根据周志华老师在西瓜书中的剪枝内容,思想是类似于XGBoost中的early stopping,如果在验证集效果不再提升,那么就不再进行分裂

  • 预剪枝
    在节点进行分裂时,计算验证集分裂前后精度是否降低。如果提高,继续分裂;否则停止分裂
  • 后剪枝
    先构建完整的决策树,自下向上进行查找,如果合并叶子节点后的精度相比合并前有提升,那么进行剪枝,将叶子节点的样本进行合并,并删除叶子节点


    image.png
  1. 连续值处理
    对于连续型特征,假设有n个样本的特征x取值为{x1,x2,...xn},那么将x1,x2,...xn从小到大排序,取两两值的中点作为分割点,依次遍历每个分割点并计算信息增益(率)或基尼系数,选择对应的分割点作为最终的分割条件
    注:对于连续型特征,特征选择后是可以继续作为后续的节点的分裂条件

  2. 缺失值处理
    根据是否缺失给样本赋予不同的权重,无缺失是1,缺失是0。当计算信息增益时,只考虑非缺失的样本,将最终结果乘以(1-缺失率)作为修正后的增益率


    image.png

相关文章

  • 决策树知识总结

    简述决策树的原理决策树的实质就是一系列的if-else,根据决策条件,从根节点走到叶子节点。对于分类问题,根据叶子...

  • 决策树算法总结

    目录 一、决策树算法思想 二、决策树学习本质 三、总结 一、决策树(decision tree)算法思想: 决策树...

  • 决策树与随机森林

    PART I 决策树 (Decision Tree) 决策树基本知识 决策树何时停止生长:(I) all leaf...

  • 机器学习系列(三十六)——回归决策树与决策树总结

    本篇主要内容:回归决策树原理、回归树学习曲线、决策树总结 回归决策树原理 回归决策树树是用于回归的决策树模型,回归...

  • 经典机器学习系列之【决策树详解】

      这节我们来讲说一下决策树。介绍一下决策树的基础知识、决策树的基本算法、决策树中的问题以及决策树的理解和解释。 ...

  • 《机器学习》Chapter3 决策树学习

    Chapter 3 决策树学习 知识汇总:

  • 决策树算法

    决策树 决策树也是经常使用的数据挖掘算法,其不用了解机器学习的知识,就能搞明白决策树是如何工作的。 决策树算法能够...

  • 决策树

    本周学了一种非要重要也非常基础的核心分类算法——决策树。下面对决策树算法做一个总结:) 决策树(decision ...

  • ID3/C4.5/CART决策树算法推导

    目录 一、ID3决策树 二、C4.5决策树 三、CART决策树 四、总结 信息熵——度量样本集合纯度最常用一种指标...

  • 刘润商学院日课总结12.11

    今日总结:决策树 决策树,就是把决策点画出来,以便用这种方式更好的找到自己要用的方案。

网友评论

      本文标题:决策树知识总结

      本文链接:https://www.haomeiwen.com/subject/unfcyhtx.html