决策树的总结

作者: 在做算法的巨巨 | 来源:发表于2018-11-05 21:18 被阅读0次

决策树算法总结
机器学习系列（三十六）——回归决策树与决策树总结
决策树
刘润商学院日课总结12.11
ID3/C4.5/CART决策树算法推导
ID3和C4.5决策树算法总结及其ID3Python实现
决策树——ID3、C4.5、CART
从决策树、GBDT到XGBoost和LightGBM总结
[笔记]决策树
CSS居中完全指南——构建CSS居中决策树

决策树的核心思想是分域，
无论是做回归还是分类。

分类方面，决策数的参考变量是信息增益。
信息熵：数据的无序程度，信息熵越大，数据不确定性越大。 $H(D)=-\sum_{i=1}^{m}p_i * log(p_i)$
信息增益：经验信息熵减去经验条件熵，信息增益越大，说明条件特征越能减小数据的不确定性。 $gain(D,A)=H(D) - H(D|A)$
$H(D|A) = \sum_{i=1}^{m}\frac{D_i}{D}H(D_1)$
因此，猜想，信息增益可以作为feature selection的一种手段。
决策树中的Id3算法一般用信息增益作为分割判断依据。
信息增益比：信息增益的缺点是特征数据的分布不一，数据多的特征数据增益就会偏大一点，因此，为了减少这些误差，加一个分母，类似与归一化的操作，让数据停留在同一标准下进行比较。
决策树中的C4.5算法采用的便是信息增益比。