美文网首页
决策树要点总结

决策树要点总结

作者: 松鼠的读书笔记 | 来源:发表于2019-01-21 21:36 被阅读82次

1、决策树的学习:特征选择、决策树的生成、决策树的剪枝

2、Greedy decision tree learning(生成):

 step1: start with an empty tree

 step2: split on a feature

                  —— 选择哪个特征来分裂?

                  —— 信息增益 / 信息增益比

                  —— 注意使用信息增益会倾向于选择取值较多的特征来分裂,因此引入信息增益比进行校正

for each split of the tree:

          step3: if nothing more to, make predictions

                      —— 停止条件是什么?

                     —— 节点中的样本lablel都相同,特征都已经分裂完没得再选了

          step4: otherwise, go to step2 and continue on this split

3、如何处理连续型的特征?

将该特征的值进行排序,选取相邻两点间的均值作为候选分裂值,根据分裂后分类误差最小化选择最好的分裂值。

4、决策树的过拟合:当树的深度越来越大时,决策边界越来越复杂,训练误差越来越小,但是验证集的误差不降反升,模型泛化能力差。如何防止过拟合?

(1)early stopping:限制树的最大深度、设置分裂收益的门限值、设置节点应包含的最少data points

(2)剪枝:从底部向上,对每一个分裂节点,如果剪枝后的total cost更小,就进行剪枝。

            ——如何衡量树的复杂度?叶节点的个数L(T)

            ——Balance fit and complexity: total cost  C(T)=  Error(T)  +  lambda * L(T)

5、如何处理缺失值?

(1)skip data points with missing values / skip features with missing values

(2)fill in each missing value with a calculated guess(比如众数、平均值、中位数填充)

(3)adapt learning algorithm to be robust to missing values

6、决策树学习常用算法:ID3、C4.5、CART

ID3:树的生成算法,在决策树的各个节点上应用信息增益准则选择特征,递归地构建决策树,容易产生过拟合。

C4.5:在ID3的基础上进行了改进:

用信息增益比选择特征

增加了对连续值的处理

自动处理特征值缺失问题(丢弃有缺失值的样本)

采用后剪枝处理过拟合

CART:分类回归树,二叉树,包括生成和剪枝。

CART生成:递归地构建决策二叉树,对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则,进行特征选择。

CART剪枝:首先在生成算法产生的决策树低端开始不断剪枝,直到根节点,形成一个子树序列;然后通过交叉验证选出最优子树(平方误差/Gini指数最小)

7、决策树的优缺点

优点:易于解释;分类速度快

缺点:不支持在线学习,当新样本到来后,决策树需全部重建;容易过拟合

相关文章

  • 决策树要点总结

    1、决策树的学习:特征选择、决策树的生成、决策树的剪枝 2、Greedy decision tree learni...

  • 决策树算法总结

    目录 一、决策树算法思想 二、决策树学习本质 三、总结 一、决策树(decision tree)算法思想: 决策树...

  • 机器学习系列(三十六)——回归决策树与决策树总结

    本篇主要内容:回归决策树原理、回归树学习曲线、决策树总结 回归决策树原理 回归决策树树是用于回归的决策树模型,回归...

  • 决策树

    本周学了一种非要重要也非常基础的核心分类算法——决策树。下面对决策树算法做一个总结:) 决策树(decision ...

  • ID3/C4.5/CART决策树算法推导

    目录 一、ID3决策树 二、C4.5决策树 三、CART决策树 四、总结 信息熵——度量样本集合纯度最常用一种指标...

  • 刘润商学院日课总结12.11

    今日总结:决策树 决策树,就是把决策点画出来,以便用这种方式更好的找到自己要用的方案。

  • ID3和C4.5决策树算法总结及其ID3Python实现

    ID3和C4.5决策树算法总结及其ID3Python实现 1.决策树的算法流程 决策树的算法流程主要是:1.如果当...

  • Kaggle自行车预测练习-基础篇

    知识要点:lubridate包拆解时间 | POSIXlt利用决策树分类,利用随机森林预测利用对数进行fit,和e...

  • 决策树——ID3、C4.5、CART

    本篇开始总结一下以决策树为基础的模型,当然本篇的内容就是决策树了,决策树可以用来分类也可以用来回归,用作分类的应该...

  • “行为变化”模式

    “行为变化”模式 命令模式 模式定义 类图 要点总结 访问器模式 结构 要点总结

网友评论

      本文标题:决策树要点总结

      本文链接:https://www.haomeiwen.com/subject/ziihjqtx.html