机器学习-周志华决策树

作者: 吹洞箫饮酒杏花下 | 来源:发表于2016-12-07 20:01 被阅读0次

决策树建立：当前节点选哪个特征，选择特征的哪个值作为分割点。

决策树建立的目标：结点的“纯度”越来越高。

决策树调参数、调过拟合：树的数目，深度，叶子节点上样本数目，剪枝。

代表样本纯度或者不纯度的指标： 样本的纯度，只关乎样本值为0 和为1 的个数。

信息熵、信息增益率，理论上适用的是类别型的特征。

1）信息增益：信息熵代表了样本的混乱程度。信息熵越低，表示样本越纯。信息增益是前后加权信息熵的差，越大表示变的越纯，效果越好。不限定分了几个枝。

信息增益表示已知特征A后，使得数据D的不确定程度减小了多少。gain(D,A) = H(D) - H(D|A)

其中，条件熵 H（D|A）= H（D，A）- H（A）

信息增益准则偏好于取值数目较多的特征。（不是只分两个枝，只能处理标称数据。）

2）增益率信息增益/属性固有值。（特征取值越少，则固有值越小，则增益率越大，则偏向取值少的特征。) g(D,A)/H(A)

3）基尼系数：叶子结点时，随机选取一个样本，随机预测其类别，预测错误的概率。 1- 求和(P的平方)

剪枝

1）预剪枝：生成树时，计算剪枝前后，精度（或其他指标？）是否提升，有则分裂，没有则停止。降低过拟合风险，减少训练时间，但是可能导致欠拟合。

2）后剪枝：自底而上，原理同上。

为了保证树模型不那么复杂（叶节点个数），在损失函数上可加正则项。选择剪枝后，损失函数变小越大越好。

信息增益、信息增益率、基尼系数优缺点：

网友评论

本文标题：机器学习-周志华决策树

本文链接：https://www.haomeiwen.com/subject/xoyrmttx.html

机器学习-周志华决策树