决策树建立:当前节点选哪个特征,选择特征的哪个值作为分割点。
决策树建立的目标:结点的“纯度”越来越高。
决策树调参数、调过拟合:树的数目,深度,叶子节点上样本数目,剪枝。
代表样本纯度或者不纯度的指标: 样本的纯度,只关乎样本值为0 和为1 的个数。
信息熵、信息增益率,理论上适用的是类别型的特征。
1)信息增益:信息熵代表了样本的混乱程度。信息熵越低,表示样本越纯。信息增益是前后加权信息熵的差,越大表示变的越纯,效果越好。不限定分了几个枝。
信息增益表示已知特征A后,使得数据D的不确定程度减小了多少。gain(D,A) = H(D) - H(D|A)
其中,条件熵 H(D|A)= H(D,A)- H(A)
信息增益准则偏好于取值数目较多的特征。(不是只分两个枝,只能处理标称数据。)
2)增益率 信息增益/属性固有值。(特征取值越少,则固有值越小,则增益率越大,则偏向取值少的特征。) g(D,A)/H(A)
3)基尼系数:叶子结点时,随机选取一个样本,随机预测其类别,预测错误的概率。 1- 求和(P的平方)
剪枝
1)预剪枝:生成树时,计算剪枝前后,精度(或其他指标?)是否提升,有则分裂,没有则停止。降低过拟合风险,减少训练时间,但是可能导致欠拟合。
2)后剪枝:自底而上,原理同上。
为了保证树模型不那么复杂(叶节点个数),在损失函数上可加正则项。选择剪枝后,损失函数变小越大越好。
信息增益、信息增益率、基尼系数优缺点:
网友评论