美文网首页
「数据分类」13决策树分类之ID3算法和C4.5算法

「数据分类」13决策树分类之ID3算法和C4.5算法

作者: 林拂晓 | 来源:发表于2020-02-03 19:52 被阅读0次

1.决策树

    决策树是应用广泛的一种归纳推理算法。在分类问题中,决策树算法基于特征对样本进行分类,构成一棵包含一系列if-then规则的树,在数学上可以将这棵树解释为定义在特征空间与类空间上的条件概率分布。

    决策树的主要优点是分类速度快、训练数据可包含错误、模型具有可读性,目前已被成功应用到医疗诊断、贷款风险评估等领域。

2.sklearn中自带的决策树方法

class sklearn.tree.DecisionTreeClassifier(criterion='gini', splitter='best', max_depth=None, min_samples_split=2,min_samples_leaf =1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None,class_weight=None, presort=False)

主要参数说明如下:

①criterion:默认为"gini",用来衡量分类的质量。支持的标准有"gini"与"entropy","gini"代表的是Gini impurity(不纯度),"entropy"代表的是information gain(信息增益)。

②splitter:默认为"best",一种用来在节点中选择分类的策略。支持的策略有"best",选择最好的分类,"random"选择最好的随机分类。

③max_features:有int,float,string or None三类值,默认为None,表示在进行分类时需要考虑的特征数。

3.ID3算法

(1)相关概念

①信息熵

设X为一个可取有限个值{x1,x2,...,xn}的离散随机变量,其概率分布为Pi=P(X=xi),则随机变量X的信息熵定义为:

信息熵

上式中,对数log以2为底,熵的单位是比特(bit),以自然对数e为底,熵的单位是纳特(nat)。信息熵越大,表示不确定性越强

②条件信息熵

假设X的概率分布为pi=PX(X=xi),Y在X条件下的条件概率分布为pj|i=PY|X(yj |xi),条件信息熵H(Y|X)定义为:

条件信息熵

③信息增益

g(D, A)=H(D)-H(D |A)

信息增益用来量化分类的不确定性降低的程度,即熵降低的程度。所以在选择切分特征时,先计算每个特征的信息增益,选择信息增益最大的特征作为切分特征

所以ID3算法是依据信息增益做特征选择。

(2)ID3算法的实现

ID3算法实现流程 决策树可视化实现

【注】决策树可视化需要安装GraphViz,并将软件的安装路径添加到主机环境变量中。

相关结论 ID3算法得到的决策树

(3)ID3的缺点

①实例各特征的取值必须是离散值,而不能是连续实数值(例如销量只能是“高”、“低”,而不能是具体数值)。

②预测目标只能为离散值,不能是连续实数值,因此只能处理分类问题,而不能处理回归问题。

4.C4.5算法

    依据信息增益选择切分特征时,如果一个特征的可取值较多,通常它的信息增益更大,该特征则会被优先选择,这对于可取值较少的特征不公平。为避免这样的问题,可以以信息增益比为指标来选择切分特征,信息增益比实质上就是在信息增益的基础上对可取值较多的特征做出一定的“惩罚”。

    C4.5算法就是依据信息增益比来选择特征的。

相关文章

  • 2019-04-26

    决策树 离散型数据ID3 连续型数据C4.5 分类与回归树算法(CART) CART算法就是将决策树中用于判断特征...

  • 第八章 数据决策分析算法——基于C4.5算法的决策树

    8.2 基于C4.5算法的决策树 C4.5是J.Ross Quinlan基于ID3算法改进后得到的另一个分类决策树...

  • c4.5

    C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进...

  • 分类决策树算法

    C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进...

  • 决策树的剪枝问题

    决策树的过拟合问题 决策树是一种分类器,通过ID3,C4.5和CART等算法可以通过训练数据构建一个决策树。但是,...

  • 机器学习 && 深度学习

    简单分类算法:Bayes LR SVM 决策树(C4.5 CART) 复合分类算法:Adaboost xg...

  • 决策树和随机森林

    随机森林和GBDT算法的基础是决策树 而建立决策树的算法由很多,ID3,C4.5,CART等, ID3:ID3算法...

  • 决策树Decision Tree

    决策树是一种解决分类问题的算法 。 常用的 决策树算法有: ID3 算法 ID3 是最早提出的决策树算法,他...

  • 决策树简记

    具有不同划分准则的算法决策树原理剖析及实现(ID3)理解决策树算法(实例详解)-ID3算法与C4.5算法 ID3(...

  • day10-决策树

    今天学了决策树的基本知识。 基于信息论的决策树算法有:ID3, CART, C4.5等算法。 ID3 算法是根...

网友评论

      本文标题:「数据分类」13决策树分类之ID3算法和C4.5算法

      本文链接:https://www.haomeiwen.com/subject/odykxhtx.html