美文网首页
第八章 数据决策分析算法——基于分类回归树的决策划分

第八章 数据决策分析算法——基于分类回归树的决策划分

作者: 文颜 | 来源:发表于2019-11-04 11:43 被阅读0次

8.3 基于分类回归树的决策划分

决策树有两种,一种是分类树,其输出的是样本的类标;一种是回归树,其输出的是一个实数。

8.3.1 概要

分类回归树(CART),最先由Breiman等提出,属于一类决策树。

CART由决两部分组成:决策树生成(基于训练数据集生成决策树,生成的决策树要尽量大)、决策树剪枝(用验证数据集对已生成的树进行剪枝并选择最优子树,这时用损失函数最小作为剪枝的标准)

CART与ID3的区别:

1、用于选择变量的度量不同,ID3:信息增益,CART:GINI指数。

2、对于连续的目标变量,CART预测目标变量的方法是找出一组基于树的回归方程。

3、对于具有两个以上类标的标称目标变量,CART可能考虑将目标类别合并称两个超类别(双化)。

GINI指数:

定义:在分类问题中,假设有M个类,样本点属于第i类的概率为P_{i} ,则概率分布的GINI指数定义为GINI(p)=Sum[ p_{i} \times(1- p_{i})],1\leq i\leq  M

对于给定样本集合D,其GINI指数为GINI指数为GINI(D)=1-Sum(\frac{\vert c_{i} \vert }{\vert D \vert} )^2 1\leq i\leq  M,其中c_{i}是D中属于第i类的样本子集,M是类的个数。

如果样本集合D根据特征A是否取某一可能值a分割成D_{1}D_{2}两部分,即D_{1}={(x,y)\in D|A(x)=a},D_{2}=D-D_{1},则在特征值A的条件下,集合D的Gini指数定义为:GINI(D,A)=\frac{\vert D_{1} \vert }{\vert D \vert} GINI(D_{1})+\frac{\vert D_{2} \vert }{\vert D \vert} GINI(D_{2}),基尼指数GINI(D)表示集合D的不确定性,基尼指数GINI(D,A)表示经A=a分割后集合D的不确定性。基尼指数越大,样本集合的不确定性也越大,这一点于熵相似。

8.3.2 剪枝

为了避免决策树过拟合样本,决策树要进行剪枝。剪枝分两种情况:预剪枝和后剪枝。

决策树停止生长的条件可以看做预剪枝过程。

常用的停止条件:

1、同一个类别的样本数据在同一子树上,即该子树样本数据的类型相同。

2、已经到达树的最大深度。

3、子树结点的样本数量要少于某个门限值,或者小于一定的比例。

4、子树结点再按照最优划分标准切分,其子树的样本数量小于某个门限值,或者小于一定的比例值。

5、最优划分标增益小于某个门限值。

在已生成过拟合决策树上进行剪枝,得到简化版的剪枝决策树的过程是后剪枝过程。

为了确定决策树规模,有如下几个剪枝思路:

1、为了评估剪枝方法在修剪结点上的效用,使用训练集合和验证集合。

2、为了用统计测试来估计修剪特定结点是否会改善训练集合外的数据的评估性能,使用所有的训练集合进行训练。

3、为了衡量训练样本例和决策树的复杂度,使用一些明确的标准。当编码长度最小时,树停止生长。

后剪枝技术:错误率降低剪枝(Reduce-Error Pruning,REP),悲观剪枝(Pessimistic Error Pruning,PEP),最小误差剪枝(Minimum Error Pruning),代价复杂剪枝(Cost-Complexity Pruning)

相关文章

  • 第八章 数据决策分析算法——基于分类回归树的决策划分

    8.3 基于分类回归树的决策划分 决策树有两种,一种是分类树,其输出的是样本的类标;一种是回归树,其输出的是一个实...

  • 01-23

    今天看的是分类树,CART算法的决策树可以作为分类树或者回归树,通过寻找纯净的划分,引出纯度。而CART算法主干和...

  • ML-决策树(Decision Tress)

    决策树是一种用于分类和回归任务的 非参数监督学习算法。该算法在于基于训练数据生成一个树形的决策结构。树形的决策结构...

  • 人工智能之机器学习——决策树

    决策树算法是解决分类问题的一种方法。与基于概率推断的朴素贝叶斯分类器和逻辑回归模型不同,决策树算法采用树形结...

  • 2019-04-26

    决策树 离散型数据ID3 连续型数据C4.5 分类与回归树算法(CART) CART算法就是将决策树中用于判断特征...

  • 2020机器学习决策树(2)

    上一次分享给出决策树划分几种算法,如下。 信息增益 信息增益率 但是为什么这样按特征对数据划分就可以达到分类或回归...

  • 随机森林和决策树(DecisionTree & RandomFo

    决策树 - 基于CART的决策树 CART分类回归树(classification and regression ...

  • 十大数据挖掘算法之CART回归树

    一、CART回归树概述 决策树算法的关键在于选择最佳划分特征及特征重最佳划分点位置,即划分算法。ID3决策树的划分...

  • 统计学习方法 李航 决策树模型 python sklearn 实

    李航决策树(decision)是一种基本的分类与回归算法。决策树呈树形结构,在分类问题中,表示基于特征对实例进行分...

  • CART树

    CART(classification and regression tree)算法是分类回归树算法,它是决策树的...

网友评论

      本文标题:第八章 数据决策分析算法——基于分类回归树的决策划分

      本文链接:https://www.haomeiwen.com/subject/apvrbctx.html