美文网首页
信息熵 GINI系数

信息熵 GINI系数

作者: 点点渔火 | 来源:发表于2017-07-13 21:10 被阅读0次

熵(entropy)在统计学中是一个很重要的概念,用于特征的选择,衡量结果的不确定性, 信息熵越小, 结果越简单。

信息熵的计算公式:

信息熵

条件熵:
当一个特征固定以后, 结果的不确定性即为条件熵:

条件熵

信息增益:
原熵-条件熵, 即为这个已确定变量给系统带来的稳定性增益:

信息增益

H(c) 是分类结果的gain

当然特征带来的稳定性增益越大越好。但是有个问题, 如果一个特征有非常多的value, 那么我们一个节点的分支也会对应很多,很容易造成过拟合

信息增益比:
信息增益的一个大问题就是偏向选择分支多的属性导致overfitting,信息增益比公式对value值多的情况进行的惩罚处理(尽管如此,还是要剪枝)

Infomation Gain Ratio

H(c) 是分类类别的熵, 类别越多,熵倾向于越大;同理, H(X)是变量X的Gain, 变量X的取值越多,H(X)的值也会越大, 惩罚除数越大:

H(X)

在决策树算法中,ID3使用信息增益,c4.5使用信息增益比。

Gini系数:
CART中采用了Gini系数来构造二叉决策树, 二分类问题中,近似于熵之半,但计算要简单一些:

Gini系数

D表示全样本, pi表示每种类别出现的概率, 极端情况p = 1 则Gini = 0 , 不纯度最低,最稳定。
类似的, Gini增益:

屏幕快照 2017-07-13 21.35.14.png

参考:http://blog.csdn.net/bitcarmanlee/article/details/51488204

相关文章

  • 信息熵 GINI系数

    熵(entropy)在统计学中是一个很重要的概念,用于特征的选择,衡量结果的不确定性, 信息熵越小, 结果越简单。...

  • 简书书写数学公式

    决策树 熵: 条件熵: 信息增益: 信息增益比: CHAT算法基尼系数: 基尼指数Gini(D)表示集合D的不确定...

  • (十二)决策树算法--(回归)

    一、决策树回归算法 决策树的内部封装了entropy和gini系数的计算公式。属性的选择,信息熵越大,或者gini...

  • 机器学习系列(三十五)——决策树Decision Tree

    本篇主要内容:决策树,信息熵,Gini系数 什么是决策树 决策树(Decision Tree)和knn算法都是一种...

  • 机器学习之决策树

    决策树是一个递归的过程,每层使用不同判断标准。 熵 信息增益 信息增益率 GINI系数 剪枝策略 举例在这里插入图...

  • 17. 决策树参数实例

    使用鸢尾花数据集构建决策树 决策树参数 1 熵/Gini系数作为评判指标 2 splitter: 所有或随机在特征...

  • 基尼系数

    下面是基尼系数的百度定义 基尼系数(英文:Gini index、Gini Coefficient)是指国际上通用的...

  • Python3入门机器学习 - 决策树

    信息熵 绘制决策树的决策边界 使用信息熵寻找最优划分 使用基尼系数进行划分 基尼系数的划分整体和信息熵是一样的,只...

  • 2 决策树理论细节

    1 信息熵 1.1 条件熵 1.2 信息增益 1.3 信息增益率和基尼系数 2 决策树 3 决策树的评价、剪枝和过...

  • dagum基尼系数分析

    SPSSAU-在线SPSS分析软件 Dagum系数分析 Dagum基尼系数是传统基尼gini系数的升级,其可分解为...

网友评论

      本文标题:信息熵 GINI系数

      本文链接:https://www.haomeiwen.com/subject/opyghxtx.html