美文网首页
决策树剪枝(损失函数和代价函数)

决策树剪枝(损失函数和代价函数)

作者: enhengz | 来源:发表于2017-11-27 10:09 被阅读877次

    决策树剪枝是简化已经生成的复杂的决策树,防止过拟合,使生成的决策更一般化,下面介绍决策树剪枝原理

    损失函数公式

    t是树的叶节点,Nt表示该叶节点的样本数量,Ht(T)表示结点t上的经验熵,所以右边第一项相当于对决策树的所有叶节点求熵,并以每个叶节点包含的样本数量为权重。又因为熵的含义为随机变量不确定性的度量,所以右边第一项的计算意义为模型对训练集的预测误差

    损失函数公式分解:

    经验熵公式

    那么右边第二项又是什么含义,T表示树的叶节点个数,即表示树的复杂度,a为参数,相当于a越大,叶节点的个数对损失函数的影响越大,剪枝之后的决策树更容易选择复杂度较小的树,a越小,表示叶节点的个数对损失函数的影响越小,所以a的大小控制了预测误差与树的复杂度对剪枝的影响

    所以当a确定时,损失函数最小的子树越大,表明与训练数据的拟合越好,但是树也越复杂,子树越小,与训练数据的拟合越差,但树的复杂度较小,避免了过拟合,提高决策树的一般性,损失函数正好表示了对两者的平衡

    损失函数公式

    相关文章

      网友评论

          本文标题:决策树剪枝(损失函数和代价函数)

          本文链接:https://www.haomeiwen.com/subject/cjsrbxtx.html