美文网首页
机器学习算法——决策树

机器学习算法——决策树

作者: 深思海数_willschang | 来源:发表于2016-09-05 10:31 被阅读75次

决策树(Decision Tree)决策树是一个类似于流程图的树结构;其中,每个内部结点表示在一个属性上的测试,每个分枝代表一个测试输出,而每个树叶结点代表类或类分布。树的最顶层结点是根结点。一棵典型的判定树如下图。


dt.jpg

决策树生成算法一个重要的工作就是选择当前信息增益最大的属性对决策树进行分裂,并根据该属性可能的取值建立对应的分支。

信息增益是涉及了信息论中信息熵的概念。信息熵是表示一个事件的不确定性的大小,不确定性越大那么该事件包含的信息熵就越大,如果一个事件完全确定了,那么它所包含的信息熵就是0。

熵(entropy)的概念是由德国物理学家克劳修斯于1865年所提出。熵最初是被用在热力学方面的,由热力学第二定律可以推出熵增的结论,然后熵是用来对一个系统可以达到的状态数的一个度量,能达到的状态数越多熵越大。信息熵也基本是很类似的,是香农1948年的一篇论文《A Mathematical Theory of Communication》提出了信息熵的概念,并且以后信息论也被作为一门单独的学科。

信息熵作为衡量一个系统复杂度的表示,在压缩时就相当于一个压缩极限的下限,不同的内容,如果他的信息熵越小,说明信息量越小,也就是压缩后所占的体积能够更小,信息熵在人工智能方面也有很多的应用,其中最有名的就是最大熵原理,保留尽可能大的不确定性而作出最佳的尽量无偏差的决定。

系统越有序,熵值越低;系统越混乱或者分散,熵值越高。

建立决策树的关键是,在当前状态下选择哪个属性作为分类依据。根据不同的目标函数,建立决策树主要有三种算法:
ID3 (信息增益 infomation gain)
C4.5 (信息增益率 Infomation Gain Ratio)
CART (基尼指数 Gini Index)

C4.5克服了ID3的2个缺点:
1.用信息增益选择属性时偏向于选择分枝比较多的属性值,即取值多的属性
2.不能处理连续属性,即将连续值实现离散化。

相关文章

  • Python学习——决策树中纯度算法的实现

    决策树 决策树算法是机器学习中的一个基础算法,该算法有着诸多的优点。在python中实现决策树,现阶段都已经集成中...

  • 决策树算法

    决策树 决策树也是经常使用的数据挖掘算法,其不用了解机器学习的知识,就能搞明白决策树是如何工作的。 决策树算法能够...

  • 决策树算法及python实现

    决策树算法是机器学习中的经典算法 1.决策树(decision tree) 决策树是一种树形结构,其中每个内部节点...

  • Machine Learning in Action:Decis

    概述 决策树这个算法比较接地气,就算你根本不懂机器学习算法也可以很好的理解决策树,决策树之前的算法就已经解释过了。...

  • 机器学习之决策树

    决策树是机器学习最基础的算法之一,基于决策树可衍生出AdaBoostTree、随机森林、GBDT等高级算法。本文重...

  • 实现简单的决策树最优划分

    决策树(Decision Tree)是一种基本的分类与回归方法。是一种典型的非参数学习的机器学习算法。决策树算法的...

  • DTrees详尽剖析与可视化展示(上)

    今天我们来介绍一种机器学习中的经典算法——决策树(DTrees)。在机器学习中算法可分为监督学习,非监督学习,半监...

  • SVM 随笔

    前言 当下机器学习比较重要 3 中算法,个人都目前为止认为比较重要机器学习算法分别是,深度学习、SVM 和决策树。...

  • 决策树在机器学习的理论学习与实践

    决策树,是一种传统机器学习算法,也是机器学习的入门算法之一。在它的基础上,衍生了随机森林、GBDT、XGBOOST...

  • 决策树在机器学习的理论学习与实践

    决策树,是一种传统机器学习算法,也是机器学习的入门算法之一。在它的基础上,衍生了随机森林、GBDT、XGBOOST...

网友评论

      本文标题:机器学习算法——决策树

      本文链接:https://www.haomeiwen.com/subject/jogcettx.html