美文网首页决策树机器学习
04 决策树 - 直观理解

04 决策树 - 直观理解

作者: 白尔摩斯 | 来源:发表于2018-10-31 19:09 被阅读48次

在决策树的第一章中《01 决策树 - 数学理论概述 - 熵》开头就给出了以下这个案例:根据一个人是否有房产、婚姻情况、年收入情况判断一个人是否有能力偿还债务。

结合《02 决策树 - 初识与构建
和《03 决策树 - 量化纯度、信息增益度、停止条件、评估
的知识,本章我们将分析一下:应该选哪个属性,作为系统的第一个分割属性?

1、计算样本结果Y-是否能偿还债务的不稳定程度(不纯度)(信息熵)
回顾公式:

H(X)是随机变量X的信息熵

图中可以得知:可以偿还的概率为0.3,不能偿还的概率是0.7。


整个系统的不稳定程度

2、根据结果Y,划分特征x1带来的信息熵
"x1=是否拥有房产" 这个特征只有两种划分:是、否。
p(x1=是)=0.4 p(x1=否)=0.6

当p(x1=是)时,"y=是" 的取值有4个,"y=否" 的取值有0个,所以"y=是" 的概率为1,"y=否" 的概率为0。

当p(x1=否)时,"y=是" 的取值有3个,"y=否" 的取值也有3个,所以概率都是0.5。

所以根据结果Y,对特征x1的划分带来的信息熵计算如下:


3、量化x1的纯度

决策树的构建是基于样本概率和纯度来进行的,判断数据集是否“纯”可以通过三个公式进行判断:Gini系数、熵(Entropy)、错误率。

三个公式的值越大,表示数据越不纯。值越小,表示数据越纯。
回顾:03 决策树 - 量化纯度、信息增益度、停止条件、评估

重点回顾:
1、Gain为A在特征对训练数据集D的信息增益,它为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差。
2、不能将所有叶子节点的信息熵单纯的求和,还得乘上一个权重值,权重值=当前叶子节点的样本个数/总的样本个数。


根据以上知识点,得出选择x1特征-是否拥有房产做分类时带来的Gain值。


4、重复1~3的步骤计算其他的特征的信息增益Gain值

最后我们发现收入的信息增益Gain值最大,所以选择该属性作为第一个分类的条件。根据是否拥有房产作为第二个分类的条件。

决策树

PS:说下年收入属性的划分97.5是怎么得到的
将X、Y的数据进行转换,对年收入的连续值从小到大做排序,然后找两两数据之间的分割点,(比如60~75之间找中值67.5)
以所有中间值作为分裂点,分别计算这些分裂点的信息熵,再计算对应的信息增益Gain。取最大的Gain值对应的分裂点即可。

年收入

相关文章

  • 04 决策树 - 直观理解

    在决策树的第一章中《01 决策树 - 数学理论概述 - 熵》开头就给出了以下这个案例:根据一个人是否有房产、婚姻情...

  • 泰坦尼克乘客生存预测

    决策树算法是经常使用的数据挖掘算法,这是因为决策树就像一个人脑中的决策模型一样,呈现出来非常直观。基于决策树还诞生...

  • 经典机器学习系列之【决策树详解】

      这节我们来讲说一下决策树。介绍一下决策树的基础知识、决策树的基本算法、决策树中的问题以及决策树的理解和解释。 ...

  • 快速简单的理解决策树

    发现很多解释决策树的文章都讲的比较复杂,这里就分享下对决策树的理解,希望大家能快速简单的理解决策树这回事。 一.决...

  • 学习使用Microsoft决策树创建 OLAP 数据挖掘模型

    微软决策树-挖掘模型建立及应用;学习使用Microsoft决策树创建OLAP数据挖掘模型;深入理解决策树分类的数据...

  • 决策树学习

    下文介绍学习决策树的过程,我们通过例子来更好地理解决策树。 决策树是什么,是一种基本的分类与回归的方法。分类决策树...

  • 直观理解 VAE(译文)

    与上一篇译文 “直观理解 GAN” 一样,这篇文章的英文原文也出自 Joseph Rocca 之手。文章既包括对 ...

  • 直观理解 GAN(译文)

    现在网上介绍 GAN 的文章很多,理解角度也是多种多样。最近在 towardsdatascience 网站闲逛的时...

  • 直观理解Handler机制

    概念 网上有很多Handler的文档,写的很详细,但有时越详细的文章看起来越是云里雾里,比如说 一个线程能否创建多...

  • 直观理解:bitmap算法

      bitmap严格意义上来说不是一种算法,而是一种使用bit位进行数据存储表示的数据结构。通常当我们遇到需要对海...

网友评论

    本文标题:04 决策树 - 直观理解

    本文链接:https://www.haomeiwen.com/subject/jewitqtx.html