美文网首页
决策树算法(一)ID3算法

决策树算法(一)ID3算法

作者: shijiatongxue | 来源:发表于2018-10-12 15:35 被阅读0次

ID3算法是一种贪婪算法,用来构造决策树。

决策树是什么?

决策树和你利用车辆用户手册排查你的车到底出了什么问题没有什么不同。

下图是判断是否外出打高尔夫球的决策树。Outlook代表光照,有三种值。

典型的决策树

该算法最早由J. Ross Quinlan于1975年提出,算法的核心是“信息熵”。ID3算法通过计算每个属性的信息增益,选择信息增益最高的属性为划分标准,重复这个过程,直至生成一个决策树。

信息熵:香农将其定义为离散随机时间出现的概率,一个系统越是有序,信息熵就越低,反之一个系统越是混乱,它的信息熵就越高。所以信息熵可以认为是系统有序化程度的一个度量。

假如一个随机变量X的取值为X={x1,x2,...,xn},每一种取到的概率分别为{p1,p2,...,pn},那么X的熵定义为

X的熵

通过下图可以看出,对于任意的p,如果p<0.5,那么认为概率较小,函数对其进行放大,这会增加系统的熵;反之,对于大概率则会对其进行缩小,这会减少系统的熵。整个过程是通过函数-x*log2(x)实现的,最后对所有样本点进行累加,求出系统熵值。

-x*log2(x)

对于分类系统来说,分类总体记为C,它可以分为n类,记作C1,C2,...,Cn,而每一个类别出现的概率分别是P(C1),P(C2),...,P(Cn),此时分类系统的熵可以表示为

C的熵

下面介绍信息增益。

信息增益IG是相对于属性(特征)而言,系统有它和没有它的信息熵各是多少,前后的差值即信息增益。它在一定程度上反映了了属性的重要程度。定义如下:

信息增益

IG(S|T)表示加入属性T后,系统S的信息增益;value(T)是属性T取值的集合,v是该集合的一个值,Sv是S中属性T为v的样例的集合(即根据T划分簇),|Sv|是Sv中的样例个数。

上式表达的意思就是,通过属性T对集合进行分类,求出新的分类的加权信息熵,比较与原来的差值就是信息增益。

总的来说,搞明白分枝是如何产生的,就理解了ID3算法。该方法选择分枝(属性)的方式是通过计算每个属性的信息增益,选择信息增益最高的属性为新的划分。该算法认为属性的重要性的体现方式是通过对系统熵的影响,如果可以降低很多不确定性,那么它就是一个重要的属性。通过一步步地选择分枝,构建处决策树,构建完成之后,我们就可以对将来的数据进行预测了。


参考文献:

XindongWu, VipinKumar. 数据挖掘十大算法[M]. 清华大学出版社, 2013.

决策树之ID3算法 blog.csdn.net/fly_time2012/article/details/70210725

相关文章

  • 决策树Decision Tree

    决策树是一种解决分类问题的算法 。 常用的 决策树算法有: ID3 算法 ID3 是最早提出的决策树算法,他...

  • 决策树简记

    具有不同划分准则的算法决策树原理剖析及实现(ID3)理解决策树算法(实例详解)-ID3算法与C4.5算法 ID3(...

  • JS简单实现决策树(ID3算法)

    推荐阅读:ID3算法 wiki决策树算法及实现完整示例代码:JS简单实现决策树(ID3算法)_demo.html ...

  • 决策树和随机森林

    随机森林和GBDT算法的基础是决策树 而建立决策树的算法由很多,ID3,C4.5,CART等, ID3:ID3算法...

  • day10-决策树

    今天学了决策树的基本知识。 基于信息论的决策树算法有:ID3, CART, C4.5等算法。 ID3 算法是根...

  • 100天搞定机器学习|Day23-25 决策树及Python实现

    算法部分不再细讲,之前发过很多: 【算法系列】决策树 决策树(Decision Tree)ID3算法 决策树(De...

  • 理论-决策树

    ID3算法Building Decision Trees in Python如何实现并应用决策树算法?

  • 数据科学(机器学习: 决策树(ID3算法 ))

    决策树构建 ID3算法 ID3算法的核心是在决策树各个结点上对应信息增益准则选择特征,递归地构建决策树。 从根结点...

  • 分类(1):决策树与模型评估

    一、如何建立决策树 1、Hunt算法 Hunt算法是许多决策树算法的基础,包括ID3、C4.5、CART。Hunt...

  • c4.5

    C4.5是机器学习算法中的另一个分类决策树算法,它是基于ID3算法进行改进后的一种重要算法,相比于ID3算法,改进...

网友评论

      本文标题:决策树算法(一)ID3算法

      本文链接:https://www.haomeiwen.com/subject/hcbwaftx.html