美文网首页
13. 信息增益率

13. 信息增益率

作者: 十里江城 | 来源:发表于2019-11-09 22:45 被阅读0次

1) ID3:使用信息增益

信息增益的弊端

假设ID作为上述实例中的一个特征,对于ID有14个分支,一个分支只有一个值,概率为1
即有些特征,其取值很多,但每个属性对应的样本个数很少,会导致“信息增益”非常大。

2) C4.5: 使用信息增益率

信息增益率

信息增益率 = 信息增益 / 自身熵值, 比如ID特征自己的熵(非常大,自己很不纯),之后信息增益率变很小

3) CART:Gini系数

4) 决策树的评价函数

损失函数C(T) = sum_{t (- leaf}_(N_t * H(t))
其中叶子节点t, t的样本值N_t, 对应的熵H(t), C(t)越小越好

5) C4.5算法:ID3的扩展

6) 决策树处理连续值

将连续型属性离散化,将属性值划分成不同的区间,比较各个分裂点Gain大小

选择连续值的分界点

贪婪法的“二分”数据集,比如十个数据划分则可能需要九个分界点

相关文章

  • 13. 信息增益率

    1) ID3:使用信息增益 信息增益的弊端 假设ID作为上述实例中的一个特征,对于ID有14个分支,一个分支只有一...

  • 信息熵、条件熵、信息增益、信息增益率

    一、信息熵 1. 信息熵提出背景 我们生活在一个信息爆炸的时代,从信息学的角度来说,人类进步的本质就是不断的打...

  • 1-2 决策树节点划分时的特征选择依据

    依据不同的决策树算法,在划分子节点时进行特征选择的依据有信息增益、信息增益比(又称信息增益率)、基尼系数三种。依次...

  • 信息论(熵&信息增益&增益率&gini指数)

    1、信息熵(Ent(D))     用来度量一组样本集合的纯度(信息熵越小,纯度越高)。假设在集合D中第k类的占比...

  • 2 决策树理论细节

    1 信息熵 1.1 条件熵 1.2 信息增益 1.3 信息增益率和基尼系数 2 决策树 3 决策树的评价、剪枝和过...

  • 人工智能通识-科普-信息增益率

    欢迎关注我的专栏( つ•̀ω•́)つ【人工智能通识】 什么是信息增益率? 信息增益回顾 之前的三个文章中谈论了信息...

  • 决策树

    1. 信息增益,增益率 输入:训练集{} ; 属性集{} 过程:函数 信息熵 是度量样本集合纯度最常用的一种指标,...

  • 机器学习|决策树分类与python实现

    目录: 1.决策树简介 2.决策树生成 a) 选择标准——熵 b) 信息增益——ID3算法 c) 信息增益率——C...

  • 机器学习之决策树

    一、什么是决策树 相关名词 信息熵 信息增益和信息增益率 剪枝、预剪枝和后剪枝 过拟合 根节点和叶节点(关于这些名...

  • python tree

    决策树理论 决策树ID3 信息增益C4.5 信息增益率CART 基尼系数前剪枝,后剪枝 from math imp...

网友评论

      本文标题:13. 信息增益率

      本文链接:https://www.haomeiwen.com/subject/fchobctx.html