美文网首页机器学习机器学习与数据挖掘机器学习与计算机视觉
信息熵(香农熵)、条件熵、信息增益的简单了解

信息熵(香农熵)、条件熵、信息增益的简单了解

作者: 言雍 | 来源:发表于2017-09-10 14:07 被阅读119次

信息熵(香农熵)

1948年,香农提出了 “信息熵(entropy)”的概念
信息熵是消除不确定性所需信息量的度量,即未知事件可能含有的信息量。通俗的讲信息熵是用来衡量信息量的大小。

  • 若不确定性越大,则信息量越大,熵越大。
  • 若不确定性越小,则信息量越小,熵越小。
    下面我们引出信息熵的公式:

    其中P(x_{i}) 代表随机事件X为x_{i} 的概率,式中对数一般取2为底
    例子:

    设上述例子中嫁的变量为Y:
    p(y=嫁) = 1/2
    p(n=不嫁) = 1/2
    所以H(Y) = -1/2log1/2 - 1/2log1/2 = 1

条件熵

信息熵是代表随机变量的复杂度(不确定度),条件熵代表在某一个条件下,随机变量的复杂度(不确定度)
例子:


可以求得随机变量X(嫁与不嫁)的信息熵为:
嫁的个数为6个,占1/2,那么信息熵为-1/2log1/2-1/2log1/2 = -log1/2=0.301
现在假如我知道了一个男生的身高信息
身高有三个可能的取值{矮,中,高}
矮包括{1,2,3,5,6,11,12},嫁的个数为1个,不嫁的个数为6个
中包括{8,9} ,嫁的个数为2个,不嫁的个数为0个
高包括{4,7,10},嫁的个数为3个,不嫁的个数为0个
先回忆一下条件熵的公式如下:

我们先求出公式对应的:
H(Y|X = 矮) = -1/7log1/7-6/7log6/7=0.178
H(Y|X=中) = -1log1-0 = 0
H(Y|X=高) = -1log1-0=0
p(X = 矮) = 7/12,p(X =中) = 2/12,p(X=高) = 3/12
则可以得出条件熵为:
7/120.178+2/120+3/12*0 = 0.103

信息增益

信息增益 = 信息熵 - 条件熵
信息增益代表了在一个条件下,信息复杂度(不确定性)减少的程度
上面例子的得知身高信息后,信息增益为(我们知道信息熵与条件熵相减就是我们的信息增益):
1 - 0.103 = 0.897
所以我们可以得出我们在知道了身高这个信息之后,信息增益是0.897

相关文章

  • 一文理解机器学习中的各种熵

    本文的目录组织如下: 【1】自信息【2】熵(香农熵)【3】联合熵【4】条件熵【5】互信息(信息增益)【6】 熵、联...

  • 信息熵(香农熵)、条件熵、信息增益的简单了解

    信息熵(香农熵) 1948年,香农提出了 “信息熵(entropy)”的概念信息熵是消除不确定性所需信息量的度量,...

  • 熵、条件熵、信息增益(互信息)

    信息增益 首先明确一点,信息熵是信息量的期望!期望!期望!(各种信息熵都是如此,像熵、条件熵、信息增益)熵:表示随...

  • 熵之道

    熵的定义如下: 互信息 = H(D) - H(D|A) 信息增益 = 经验熵 - 经验条件熵; 互信息和信息增益理...

  • 决策树learning

    1.0 理论 熵 条件熵 信息增益 信息增益比 1.0 sklearn.tree 首先,http://scikit...

  • 决策树及ID3算法实现

    什么是决策树 决策树和if-else的不同 节点的划分 信息增益(ID3)熵条件熵经验熵和经验条件熵信息增益算法描...

  • ID3与C4.5算法

    写在开始 在开始决策树算法之前,我们需要准备一些信息论的知识: 信息熵 条件熵 信息增益 交叉熵 相对熵 信息熵 ...

  • 决策树算法梳理

    信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度) 信息熵:信息熵是度量样本集合纯度常用的一种指标。在信息论中...

  • 决策树算法梳理

    决策树算法梳理 1. 信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度) 1.1 熵 (entropy)...

  • 决策树与随机森林(一)

    转自小象学院 我的学习笔记 1. 复习信息熵:熵,联合熵、条件熵、互信息 2. 决策树学习算法:信息增益 | ID...

网友评论

本文标题:信息熵(香农熵)、条件熵、信息增益的简单了解

本文链接:https://www.haomeiwen.com/subject/wuvzjxtx.html