美文网首页
决策树ID3 C4.5 CART的区别

决策树ID3 C4.5 CART的区别

作者: arrnos | 来源:发表于2017-08-10 17:06 被阅读648次

决策树是机器学习中非常经典的一类学习算法,它通过树的结构,利用树的分支来表示对样本特征的判断规则,从树的叶子节点所包含的训练样本中得到预测值。决策树如何生成决定了所能处理的数据类型和预测性能。主要的决策树算法包括ID3,C4.5, CART等。

ID3

ID3是由 Ross Quinlan在1986年提出的一种构造决策树的方法。用于处理标称型数据集。

在节点上选取能对该节点处的训练数据进行最优划分的属性。最后划分的标准是信息增益(Information Gain)。

ID3的特点是:(1)容易造成过度拟合。(2) 使用标称型数据,但是很难处理连续型数据。

C4.5

C4.5是对ID3的改进,其基本过程与ID3类似,改进的地方在于:

(1)既能处理标称型数据,又能连续型数据。为了处理连续型数据,该算法在相应的节点使用一个属性的阈值,利用阈值将样本划分成两部分。

(2)能处理缺失了一些属性的数据。该算法允许属性值缺失时被标记为?,属性值缺失的样本在计算熵增益时被忽略。

(3)构造完成后可以剪枝。合并相邻的无法产生大量信息增益的叶节点,消除过渡匹配问题。

3,CART

CART称为分类决策树(二叉树),既能处理分类问题,又能处理回归问题。与ID3不能直接处理连续型特征不同的是,CART使用二元切分,即使用一个属性阈值对样本数据进行划分。划分的标准除了使用熵增益外,还有基尼纯净度(Gini impurity)和方差缩减(variance reduction)(用于回归)。

ID3算法是决策树的一个经典的构造算法,在一段时期内曾是同类研究工作的比较对象,但通过近些年国内外学者的研究,ID3算法也暴露出一些问题,具体如下: (1)信息增益的计算依赖于特征数目较多的特征,而属性取值最多的属性并不一定最优。

(2)ID3是非递增算法。

(3)ID3是单变量决策树(在分枝节点上只考虑单个属性),许多复杂概念的表达困难,属性相互关系强调不够,容易导致决策树中子树的重复或有些属性在决策树的某一路径上被检验多次。

(4)抗噪性差,训练例子中正例和反例的比例较难控制。

于是Quilan改进了ID3,提出了C4.5算法。C4.5算法现在已经成为最经典的决策树构造算法,排名数据挖掘十大经典算法之首,下一篇文章将重点讨论。

决策树的经典构造算法——C4.5(WEKA中称J48)

由于ID3算法在实际应用中存在一些问题,于是Quilan提出了C4.5算法,严格上说C4.5只能是ID3的一个改进算法。

C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进:

1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足;

2) 在树构造过程中进行剪枝;

3) 能够完成对连续属性的离散化处理;

4) 能够对不完整数据进行处理。

C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。此外,C4.5只适合于能够驻留于内存的数据集,当训练集大得无法在内存容纳时程序无法运行。

另外,无论是ID3还是C4.5最好在小数据集上使用,决策树分类一般只试用于小数据。当属性取值很多时最好选择C4.5算法,ID3得出的效果会非常差。

相关文章

  • 从cart决策树到XGBoost

    一. cart决策树简述 我们知道决策树算法有ID3、C4.5和cart三种,ID3和C4.5是基于信息增益和信息...

  • (14)监督学习-分类问题-决策树

    决策树算法分为ID3,C4.5,CART几种。其主要区别在于特征选择的方法不同。 1、 ID3 特征选择方法...

  • 决策树和随机森林

    随机森林和GBDT算法的基础是决策树 而建立决策树的算法由很多,ID3,C4.5,CART等, ID3:ID3算法...

  • 05 决策树 - 生成算法 ID3、C4.5、CART

    ID3 提出了初步的决策树算法;C4.5 提出了完整的决策树算法;CART (Classification And...

  • 2019-04-26

    决策树 离散型数据ID3 连续型数据C4.5 分类与回归树算法(CART) CART算法就是将决策树中用于判断特征...

  • 决策树基本要点及方法对比

    决策树的生产,基本方法有ID3、C4.5、CART。基于基础决策树学习器,可进一步构建提升树。 ID3 ID3算法...

  • day10-决策树

    今天学了决策树的基本知识。 基于信息论的决策树算法有:ID3, CART, C4.5等算法。 ID3 算法是根...

  • 机器学习笔记E5--决策树ID3、C4.5与CART

    决策树思想 特征选择信息增益与ID3信息增益率与C4.5基尼指数与CARTID3、C4.5与CART的对比 决策树...

  • 经典决策树对比

    关于经典决策树算法ID3、C4.5及CART树的部分细节梳理。 决策树 决策树可以从两个视角理解。 If-Then...

  • 分类(1):决策树与模型评估

    一、如何建立决策树 1、Hunt算法 Hunt算法是许多决策树算法的基础,包括ID3、C4.5、CART。Hunt...

网友评论

      本文标题:决策树ID3 C4.5 CART的区别

      本文链接:https://www.haomeiwen.com/subject/banhrxtx.html