决策树

作者: Gene_Chung | 来源:发表于2018-11-28 23:11 被阅读0次
概要

决策树算法主要包括:特征的选择,树的生成,树的剪枝。
常用的算法有ID3,C4.5,CART。

基本名词解释:(不懂的建议自行google)
信息熵 & 信息增益
熵: 熵(entropy)指的是体系的混乱的程度,在不同的学科中也有引申出的更为具体的定义,是各领域十分重要的参量。
信息熵(香农熵): 是一种信息的度量方式,表示信息的混乱程度,也就是说:信息越有序,信息熵越低。例如:火柴有序放在火柴盒里,熵值很低,相反,熵值很高。

决策树的特征选择

决策树特征选择的关键是其规则,常用的有:
1.信息增益(ID3)
2.信息增益比(C4.5)
3.基尼系数(CART)

决策树的生成

决策树生成通过计算信息增益或者其他指标,从根节点出发,递归地产生决策树,相当于泳信息增益或者其他准则不断地迭代选取局部最优的特征。

决策树的剪枝

由于决策树存在过拟合问题,需进行剪枝获得局部最优的算法。剪枝从生成树剪掉一些叶节点或者叶节点以上的子树,将其父节点和根节点作为新的叶节点,从而简化生成的决策树。

决策树 算法特点

优点:计算复杂度不高,输出结果易于理解,对中间值的缺失不敏感,可以处理不相关特征数据。
缺点:可能会产生过度匹配问题。
适用数据类型:数值型和标称型。

决策树 工作原理
如何构造一个决策树?
我们使用 createBranch() 方法,如下所示:

检测数据集中的所有数据的分类标签是否相同:
    If so return 类标签
    Else:
        寻找划分数据集的最好特征(划分之后信息熵最小,也就是信息增益、信息增益比最大或者基尼基尼系数最小的特征)
        划分数据集
        创建分支节点
            for 每个划分的子集
                调用函数 createBranch (创建分支的函数)并增加返回结果到分支节点中
        return 分支节点

决策树 基本开发流程
收集数据:可以使用任何方法。
准备数据:树构造算法只适用于标称型数据,因此数值型数据必须离散化。
分析数据:可以使用任何方法,构造树完成之后,我们应该检查图形是否符合预期。
训练算法:构造树的数据结构。
测试算法:使用经验树计算错误率。(经验树没有搜索到较好的资料,有兴趣的同学可以来补充)
使用算法:此步骤可以适用于任何监督学习算法,而使用决策树可以更好地理解数据的内在含义。

例:

相关文章

  • 机器学习6-决策树

    一. 决策树概述 1.1 什么是决策树 决策树输入: 测试集决策树输出: 分类规则(决策树) 1.2 决策树算法概...

  • 决策树

    1、决策树 决策树学习通常包括3个步骤: 特征选择。 决策树生成。 决策树剪枝。 决策树的学习目标是:根据给定的训...

  • 决策树

    决策树 决策树模型与学习 特征选择 决策树的生成 决策树的剪枝 CART 算法 决策树模型呈树形结构,在分类问题中...

  • 决策树算法总结

    目录 一、决策树算法思想 二、决策树学习本质 三、总结 一、决策树(decision tree)算法思想: 决策树...

  • 机器学习 - 决策树算法[一]

    1 决策树模型与学习 1.1 决策树模型 决策树定义: 分类决策树模型是一种描述对实例进行分类的树形结构。决策树由...

  • 机器学习系列(三十六)——回归决策树与决策树总结

    本篇主要内容:回归决策树原理、回归树学习曲线、决策树总结 回归决策树原理 回归决策树树是用于回归的决策树模型,回归...

  • [机器学习]决策树

    决策树 @(技术博客)[机器学习, 决策树, python] 学习决策树首先要搞清楚决策树是什么(what),在弄...

  • 经典机器学习系列之【决策树详解】

      这节我们来讲说一下决策树。介绍一下决策树的基础知识、决策树的基本算法、决策树中的问题以及决策树的理解和解释。 ...

  • 第5章 决策树

    内容 一、决策树内容简介 二、决策树的模型与学习 三、特征选择 四、决策树生成 五、决策树剪枝 六、CART算法 ...

  • 决策树与随机森林

    PART I 决策树 (Decision Tree) 决策树基本知识 决策树何时停止生长:(I) all leaf...

网友评论

      本文标题:决策树

      本文链接:https://www.haomeiwen.com/subject/icxomftx.html