决策树剪枝

作者: 0过把火0 | 来源:发表于2018-10-17 15:57 被阅读2次

    为何要剪枝

    决策树递归地构建树,直到不能继续分裂下去为止,这样的树对于训练集可能拟合的较好,但对于训练集可能产生过拟合现象,原因是过多的考虑对训练集的划分精确度,从而构建出了复杂的决策树,缓解过拟合的方法是通过剪枝

    剪枝的思想

    剪枝是通过极小化决策树整体的损失函数或代价函数来实现的

    剪枝的过程即在构建新的模型,因此,可以将剪枝看作是模型选择的一种方法。

    预剪枝

    通过提前停止树的构造来对决策树进行剪枝
    一旦停止该节点下树的继续构造,该节点就成了叶节点
    该叶节点持有其数据集中样本最多的类或者其概率分布。

    后剪枝

    先构建完整的决策树,允许决策树过度拟合训练数据。
    然后对那些置信度不够的节点的子树用叶节点来替代
    该叶节点持有其子树的数据集中样本最多的类或者其概率分布。

    后剪枝CCP

    目前在CART、gbdt等集成树模型中的剪枝方法是后剪枝,重点关注CCP剪枝的流程。



    \alpha计算时,之所以选择min(a, g(t))是因为a=g(t),同时g(t)又表达每一个叶节点能带来的误差减小量,那么每次迭代选择误差减少量最少的那一个进行剪枝,因为误差减少量很少,则代表决策树此时没必要花力气向下生长。

    转载注明:https://www.jianshu.com/p/ff73374ebe6a

    相关文章

      网友评论

        本文标题:决策树剪枝

        本文链接:https://www.haomeiwen.com/subject/cbrrzftx.html