CART树

作者: NatsuYori | 来源:发表于2020-09-21 23:04 被阅读0次

随机森林和决策树(DecisionTree & RandomFo
数据分析03 - 决策树
XGBoost详解
统计学习方法5.6 - 7.2笔记
CART树
CART 分类与回归树
01-23
2019-04-26
Cart 回归树
决策树算法之随机森林

CART（classification and regression tree）算法是分类回归树算法，它是决策树的一种实现。决策树一般有ID3,ID4.5和CART这三种算法。CART树是一颗二分树，它通过二分递归分割，在每个节点将样本空间进行分割，它在每步决策时只有是、否两种选择。
决策树的算法主要包括树生成和剪枝两步骤。本文主要讲述的是树的生成步骤。
CART树生成的主要思想就是分裂。每个准备分裂的节点，都会从数据集中选择一个最优特征的最优值作为分裂的条件，将数据分成两部分。接下来，我们界定什么是“最优”。在分类问题上，使用Gini系数来确定，在回归问题上，使用平方误差来界定。使得模型的gini系数越小、平方误差越小的特征值，就是“优” 的特征值。

树模型的输入都是1*n的vector，需要把所有feature都拍平了放进去。
cart树每次节点分裂的时候，遍历每个feature的每个value，将dataset分为在该feature上小于选定value的部分和大于选定value的部分，根据损失函数计算两部分的loss，分类问题计算gini系数，回归问题计算平方误差。遍历结束挑出使得损失最低的feature的value，然后将数据分成两部分，左子树输入的是选出feature的value小于best value的，右边是大于best value的部分
这样递归，会碰到边界条件，例如树的深度达到了，或者是数据量缩小到一定程度。然后根据叶子节点得到的数据，对样本y值求平均得到预测值。
模型在predict的时候，根据节点的feature和value，可以一步步走到叶子节点，得到叶子节点存放的预测值。

cart tree