在决策树的第一章中《01 决策树 - 数学理论概述 - 熵》开头就给出了以下这个案例:根据一个人是否有房产、婚姻情况、年收入情况判断一个人是否有能力偿还债务。
结合《02 决策树 - 初识与构建》
和《03 决策树 - 量化纯度、信息增益度、停止条件、评估》
的知识,本章我们将分析一下:应该选哪个属性,作为系统的第一个分割属性?
1、计算样本结果Y-是否能偿还债务的不稳定程度(不纯度)(信息熵)
回顾公式:
图中可以得知:可以偿还的概率为0.3,不能偿还的概率是0.7。
整个系统的不稳定程度
2、根据结果Y,划分特征x1带来的信息熵
"x1=是否拥有房产" 这个特征只有两种划分:是、否。
p(x1=是)=0.4 p(x1=否)=0.6
当p(x1=是)时,"y=是" 的取值有4个,"y=否" 的取值有0个,所以"y=是" 的概率为1,"y=否" 的概率为0。
当p(x1=否)时,"y=是" 的取值有3个,"y=否" 的取值也有3个,所以概率都是0.5。
所以根据结果Y,对特征x1的划分带来的信息熵计算如下:
3、量化x1的纯度
决策树的构建是基于样本概率和纯度来进行的,判断数据集是否“纯”可以通过三个公式进行判断:Gini系数、熵(Entropy)、错误率。
三个公式的值越大,表示数据越不纯。值越小,表示数据越纯。
回顾:03 决策树 - 量化纯度、信息增益度、停止条件、评估
重点回顾:
1、Gain为A在特征对训练数据集D的信息增益,它为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差。
2、不能将所有叶子节点的信息熵单纯的求和,还得乘上一个权重值,权重值=当前叶子节点的样本个数/总的样本个数。
根据以上知识点,得出选择x1特征-是否拥有房产做分类时带来的Gain值。
4、重复1~3的步骤计算其他的特征的信息增益Gain值
最后我们发现收入的信息增益Gain值最大,所以选择该属性作为第一个分类的条件。根据是否拥有房产作为第二个分类的条件。
决策树PS:说下年收入属性的划分97.5是怎么得到的
将X、Y的数据进行转换,对年收入的连续值从小到大做排序,然后找两两数据之间的分割点,(比如60~75之间找中值67.5)
以所有中间值作为分裂点,分别计算这些分裂点的信息熵,再计算对应的信息增益Gain。取最大的Gain值对应的分裂点即可。
网友评论