一、概念
首先CART算法既可以用于分类和回归,它区别于ID3和C4.5的关键在于它是二叉树,可以做简化分类树的分类标准(基尼指数),也影响了它切分空间
分类用基尼指数指标,回归用平方误差
二、理解
CART树的概念要分步骤理解
- 输入空间,将输入空间划分成R1到Rm,
- 切分变量,切分点,
- 递归构造
1、输入空间,输出值

2、 切分变量、切分点(重点)
挑选最优的切分变量,切分点是这个算法核心的步骤,也是最耗时的步骤,XGBoost和lightGBM速度快慢其实就取决于这个步骤的处理


3、算法
重点理解:下一次的划分是在上一次的划分子空间的基础上

三、剪枝
四、参考
1、统计学习方法
2、回归树:使用平方误差最小准则
网友评论