美文网首页
机器学习-周志华 决策树

机器学习-周志华 决策树

作者: 吹洞箫饮酒杏花下 | 来源:发表于2016-12-07 20:01 被阅读0次

    决策树建立:当前节点选哪个特征,选择特征的哪个值作为分割点。

    决策树建立的目标:结点的“纯度”越来越高。

    决策树调参数、调过拟合:树的数目,深度,叶子节点上样本数目,剪枝。

    代表样本纯度或者不纯度的指标: 样本的纯度,只关乎样本值为0 和为1 的个数

    信息熵、信息增益率,理论上适用的是类别型的特征。

    1)信息增益:信息熵代表了样本的混乱程度。信息熵越低,表示样本越纯。信息增益是前后加权信息熵的差,越大表示变的越纯,效果越好。不限定分了几个枝。

    信息增益表示已知特征A后,使得数据D的不确定程度减小了多少。gain(D,A) = H(D) - H(D|A)

    其中,条件熵  H(D|A)= H(D,A)- H(A)

    信息增益准则偏好于取值数目较多的特征。(不是只分两个枝,只能处理标称数据。) 

    2)增益率  信息增益/属性固有值。(特征取值越少,则固有值越小,则增益率越大,则偏向取值少的特征。)    g(D,A)/H(A)

    3)基尼系数:叶子结点时,随机选取一个样本,随机预测其类别,预测错误的概率。 1- 求和(P的平方)

    剪枝

    1)预剪枝:生成树时,计算剪枝前后,精度(或其他指标?)是否提升,有则分裂,没有则停止。降低过拟合风险,减少训练时间,但是可能导致欠拟合。

    2)后剪枝:自底而上,原理同上。

    为了保证树模型不那么复杂(叶节点个数),在损失函数上可加正则项。选择剪枝后,损失函数变小越大越好。

    信息增益、信息增益率、基尼系数优缺点:

    相关文章

      网友评论

          本文标题:机器学习-周志华 决策树

          本文链接:https://www.haomeiwen.com/subject/xoyrmttx.html