美文网首页决策树机器学习
04 决策树 - 直观理解

04 决策树 - 直观理解

作者: 白尔摩斯 | 来源:发表于2018-10-31 19:09 被阅读48次

    在决策树的第一章中《01 决策树 - 数学理论概述 - 熵》开头就给出了以下这个案例:根据一个人是否有房产、婚姻情况、年收入情况判断一个人是否有能力偿还债务。

    结合《02 决策树 - 初识与构建
    和《03 决策树 - 量化纯度、信息增益度、停止条件、评估
    的知识,本章我们将分析一下:应该选哪个属性,作为系统的第一个分割属性?

    1、计算样本结果Y-是否能偿还债务的不稳定程度(不纯度)(信息熵)
    回顾公式:

    H(X)是随机变量X的信息熵

    图中可以得知:可以偿还的概率为0.3,不能偿还的概率是0.7。


    整个系统的不稳定程度

    2、根据结果Y,划分特征x1带来的信息熵
    "x1=是否拥有房产" 这个特征只有两种划分:是、否。
    p(x1=是)=0.4 p(x1=否)=0.6

    当p(x1=是)时,"y=是" 的取值有4个,"y=否" 的取值有0个,所以"y=是" 的概率为1,"y=否" 的概率为0。

    当p(x1=否)时,"y=是" 的取值有3个,"y=否" 的取值也有3个,所以概率都是0.5。

    所以根据结果Y,对特征x1的划分带来的信息熵计算如下:


    3、量化x1的纯度

    决策树的构建是基于样本概率和纯度来进行的,判断数据集是否“纯”可以通过三个公式进行判断:Gini系数、熵(Entropy)、错误率。

    三个公式的值越大,表示数据越不纯。值越小,表示数据越纯。
    回顾:03 决策树 - 量化纯度、信息增益度、停止条件、评估

    重点回顾:
    1、Gain为A在特征对训练数据集D的信息增益,它为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差。
    2、不能将所有叶子节点的信息熵单纯的求和,还得乘上一个权重值,权重值=当前叶子节点的样本个数/总的样本个数。


    根据以上知识点,得出选择x1特征-是否拥有房产做分类时带来的Gain值。


    4、重复1~3的步骤计算其他的特征的信息增益Gain值

    最后我们发现收入的信息增益Gain值最大,所以选择该属性作为第一个分类的条件。根据是否拥有房产作为第二个分类的条件。

    决策树

    PS:说下年收入属性的划分97.5是怎么得到的
    将X、Y的数据进行转换,对年收入的连续值从小到大做排序,然后找两两数据之间的分割点,(比如60~75之间找中值67.5)
    以所有中间值作为分裂点,分别计算这些分裂点的信息熵,再计算对应的信息增益Gain。取最大的Gain值对应的分裂点即可。

    年收入

    相关文章

      网友评论

        本文标题:04 决策树 - 直观理解

        本文链接:https://www.haomeiwen.com/subject/jewitqtx.html