网上关于ID3、C4.5、CART的讲解已极为丰富,本文只想聚焦决策树系算法的核心:变量划分,做一些总结,加深对算法核心的认识。
1、决策树的核心

2、from 自信息 to 信息熵 to 交叉熵 to KL散度

3、离散特征信息增益率计算


4、连续特征信息增益计算


5、如果标记值为连续变量:CART




6、针对特征为离散和连续,标记为离散的过程总结
(1)、针对连续特征,按数值大小进行排序,并在标记发生改变的地方进行分裂,计算信息增益;依次针对每一种分裂情形,计算信息增益,最终选择信息增益最大的分裂情形作为这个特征的最佳分裂点;计算它的信息增益率;
(2)、针对离散特征,计算它的信息增益率;
(3)、在特征的信息增益率间进行横向比较,选择信息增益率最大的特征作为当下最优分裂属性,进行分裂,划分数据子集;
(4)、依次递归重复步骤(1)~(3),直到叶子节点只剩一个水平值(过拟合)或达到停止要求(最大深度阈值、叶子节点最小样本阈值等等,如果是 XGBoost 会有更多需要调参)
网友评论