美文网首页
决策树处理连续值,缺失值

决策树处理连续值,缺失值

作者: 闫阿佳 | 来源:发表于2017-12-13 22:15 被阅读0次

简书决策树会有哪些特性?
知乎决策树是如何处理不完整数据的?

1. 连续值如何划分?

  • C4.5:Information Gain (Ratio) based Threshold
  • CART:遍历所有输入变量j 和切分点s,根据最小化平方误差准则选取;

2. 是否能够处理Missing值? 如果能, 是如何处理的?

  • 不能处理: --
  • 插值法(Imputation): QUEST, CRUISE
  • 替代法(Alternate/Surrogate Splits):CART, CRUISE
  • 缺失值单独分支(Missing value branch):CHAID, GUIDE
  • 概率权重(Probability weights): C4.5

3.决策树是如何处理不完整数据的?

  1. 采用抛弃缺失值
    抛弃极少量的缺失值的样本对决策树的创建影响不是太大。但是如果属性缺失值较多或是关键属性值缺失,创建的决策树将是不完全的,同时可能给用户造成知识上的大量错误信息,所以抛弃缺失值一般不采用。只有在数据库具有极少量的缺失值同时缺失值不是关键的属性值时,且为了加快创建决策树的速度,才采用抛弃属性缺失值的方式创建决策树。
  2. 补充缺失值
    缺失值较少时按照我们上面的补充规则是可行的。但如果数据库的数据较大,缺失值较多(当然,这样获取的数据库在现实中使用的意义已不大,同时在信息获取方面基本不会出现这样的数据库),这样根据填充后的数据库创建的决策树可能和根据正确值创建的决策树有很大变化。
  3. 概率化缺失值
    对缺失值的样本赋予该属性所有属性值的概率分布,即将缺失值按照其所在属性已知值的相对概率分布来创建决策树。用系数F进行合理的修正计算的信息量,F=数据库中缺失值所在的属性值样本数量去掉缺失值样本数量/数据库中样本数量的总和,即F表示所给属性具有已知值样本的概率。
  4. 缺失值单独分支

相关文章

  • 1-4 决策树的几点补充

    包括:连续值处理、缺失值处理、使用多变量进行节点划分。 1. 连续值处理 决策树进行节点划分一般是针对离散值的,但...

  • 决策树处理连续值,缺失值

    简书:决策树会有哪些特性?知乎:决策树是如何处理不完整数据的? 1. 连续值如何划分? C4.5:Informat...

  • 总结

    决策树算法的有点 简单, 直观, 可解释性强, 建树容易 不需要预处理, 归一化, 以及处理缺失值 离散值, 连续...

  • 2018-08-02 决策树-连续值的学习

    昨晚看了《机器学习》4.4部分,决策树——连续与缺失值。 看到连续值部分时,上来就是对连续属性a选择候选划分点,计...

  • 数据预处理

    一.缺失值处理 1.直接使用带有缺失值的数据 2.舍弃该特征 3.缺失值填充 均值插补离散值连续值 同类均值插补 ...

  • 树模型缺失值处理总结

    本篇文章来总结一下树模型缺失值处理的方法 1、决策树 对普通的决策树来说,缺失值需要注意三个方面的问题: 在选择分...

  • Series第五讲 缺失值处理

    Series第五讲 缺失值处理 本节课将讲解如何处理pandas里的缺失值 缺失值处理 Series.fillna...

  • Pandas_3 处理缺失值、数据透视表以及apply的用法

    1.处理缺失值 Pandas使用NaN(Not a Number)来表示缺失值 1.1判断是否存在缺失值以及缺失值...

  • 【python】数据清洗

    1.处理缺失值 判断是否含缺失值/统计缺失值 筛选所有含缺失值的表格 删除含缺失值的数据 用新值填充空值 对应值替...

  • 机器学习(七)——决策树

    一、决策树简介 决策树的特点:1)既可以处理分类问题,也可以处理回归问题2)对于缺失值数据也能比较好的处理3)高度...

网友评论

      本文标题:决策树处理连续值,缺失值

      本文链接:https://www.haomeiwen.com/subject/ezrpjxtx.html