美文网首页
统计学习方法思路疏导—决策树

统计学习方法思路疏导—决策树

作者: wipping的技术小栈 | 来源:发表于2019-06-15 20:09 被阅读0次

决策树

算法过程

  1. 特征选择
  2. 生成决策树
  3. 决策树兼职

特征选择

选择下面 2 指标作为特征选择的依据

  1. 信息增益:使用熵和条件熵来计算
  2. 信息增益比:使用信息增益和特征的熵来计算

生成决策树

  1. ID3算法:使用信息增益作为特征选择指标
  2. C4.5算法:使用信息增益比作为特征选择指标
    选定特征之后要再选择一个阈值作为切分点

决策树剪枝

计算剪枝前后的整体树的损失函数值来决定是否需要剪枝
损失函数需要计算所有叶子节点经验熵

CART树

CART树是二叉树,只有 两种切分特征

回归树

回归树使用平方误差最小作为切分准则
我们先选择输入样本 x 并且从它的取值内确定一个切分值s,然后计算由这个切分值导致的损失函数。然后不断的遍历取值 s,也就是针对 s 的取值不断的进行计算。得到不同 s 下的损失函数值。选择输入样本中损失函数 s 值最小的x作为切分变量和切分值。然后将样本集切分开。
接着,继续对切分开的 2 个区域继续进行同样的计算,继续分别找出各自的 s 值进行切分。直到满足条件
参考附录《Regression Tree 回归树》

分类树

分类树使用基尼指数最小化作为切分准则
可以通过计算,找出样本集D中的特征A在值为a时,基尼指数最小。使用该特征和特征值作为且分点,然后继续对切分后的 2 个区域继续找下一个特征

CART剪枝

剪枝分 2 个部分

  1. 生成子树序列
  2. 交叉验证取出最优子树

生成子树序列

  1. 对CART树的每一个内部节点t,计算g(t)。
  2. 将 g(t) 最小的子树剪掉(即以 t 为根节点的子树,将这一整棵子树剪掉)
  3. 将这个最小的g(t) 设为 an,此时的CART树是[an,an+1)区间的最优子树Tn
  4. 在对剪完枝的CART树上继续对每一个内部节点计算g(t),重复上面的操作,直到根节点。

完成之后就可以得到我们的CART树序列T1,T2,T3,...,Tn

在这个过程中,an+1 > an

需要注意的是,在计算g(t)的过程中,C(Tt)是指训练数据的误差,即子树Tt的训练误差,可以通过计算这棵子树所有子节点的基尼系数总和来表示。

CART树的每个节点是一个特征,并不是一层是一个特征。
比如样本集被切分之后分为A和B,取其中一个样本集A再去计算基尼指数最小的特征和切分值未必和样本集B中的基尼指数最小的特征和切分值是一样的

验证CART树序列

使用交叉验证法,参考附录链接《cart决策树剪枝的个人理解》

思维导图

image.png

附录

Regression Tree 回归树:https://blog.csdn.net/weixin_40604987/article/details/79296427
cart决策树剪枝的个人理解:https://blog.csdn.net/wqtltm/article/details/82597334

相关文章

  • 统计学习方法思路疏导—决策树

    决策树 算法过程 特征选择 生成决策树 决策树兼职 特征选择 选择下面 2 指标作为特征选择的依据 信息增益:使用...

  • 统计学习方法思路疏导—感知机

    机器学习各类算法注意点 前言 这篇文章主要记录笔者在学习感知机算法过程中,各个算法需要注意的地方,不过过多的提及算...

  • Decision Tree 决策树

    阅读《李航统计学习方法》中p55-p58页总结决策树模型结构理解决策树递归思想 阅读《李航统计学习》中p58-p6...

  • 统计学习方法思路疏导—朴素贝叶斯

    朴素贝叶斯 后验概率最大化的意义 对于自然界的某一个模型有联合分布P(x,y)期望损失如下: 假设模型输出 Y 有...

  • 统计学习方法思路疏导—支持向量机SVM

    SVM支持向量机 本片文章主要记录在学习《统计学习方法》中 SVM 章节的难点,不对详细内容进行讲解。主要是分析笔...

  • 决策树(decisionTree)

    本文基于李航博士的【统计学习方法】第五章 决策树,包含ID3代码。 决策树(decisionTree)是一种基本的...

  • 决策树

    决策树在看西瓜书的时候已记录过,此次看《统计学习方法》的决策树部分,除了当作复习,也有若干新的思考。因此本篇可视为...

  • 统计学习方法思路疏导—逻辑回归与最大熵

    二项逻辑回归 二项逻辑回顾是分类模型,由条件概率 P(Y|X) 表示,其中随机变量 X 取值为实数,而随机变量 Y...

  • 决策树算法总结

    前言 决策树是机器学习模型较常用的一种方法,李航老师《统计学习方法》详细的描述了决策树的生成和剪枝,本文根据书中的...

  • 统计模型实际应用场景

    参考常用统计模型: 决策树&回归&K均值聚类&因子分析分别对应数据分析的思路:分类,回归,聚类,降维。 1 决策树...

网友评论

      本文标题:统计学习方法思路疏导—决策树

      本文链接:https://www.haomeiwen.com/subject/lpdztctx.html