美文网首页
信息的度量——熵

信息的度量——熵

作者: 井底蛙蛙呱呱呱 | 来源:发表于2019-10-20 23:31 被阅读0次

信息熵:用来衡量事件不确定性,不确定性越大,熵越大。

对任意一个随机变量X,其熵定义为:


条件熵:有两个随机变量X和Y,在Y事件确定后X的不确定性的大小称为条件熵。条件熵的定义如下:

条件熵

互信息:信息的作用在于消除事件的不确定性,互信息作为两个事件(X,Y)相关性的度量,即在确定了其中一个事件Y的前提下,对消除另一个事件X的不确定性所提供的信息量。互信息的定义如下:

互信息
确定了事件Y之后事件X的不确定性即条件熵H(X|Y),因此互信息又可表示为:I(X; Y) = H(X) - H(X|Y),即事件X总的不确定性 — 剩余的不确定性 = 确定Y使X不确定性减少的部分。推导部分如下:
互信息推导过程 通过下面的图可以更好的理解信息熵: 熵、条件熵、互信息

上图中红色圆圈表示事件X的熵H(X),蓝色圈表示事件Y的熵,两个圈圈合起来的面积表示联合熵H(X, Y),而纯色的部分则表示条件熵(减去已知事件导致的熵减少),中间的交集互信息I(X; Y)表示事件X和Y的相关性。

相对熵(也即KL散度):相对熵也用于衡量相关性,但和变量的互信息不同,它用来衡量两个取值为正数的函数的相关性。定义如下:

相对熵
关于相对熵的三个结论:
1、对于两个完全相同的函数,他们的相对熵等于零;
2、相对熵越大,两个函数的差异越大,反之亦反;
3、对于概率分布或概率密度函数,若取值均大于零,相对熵可以度量两个随机分布的差异性。

需要注意的是KL散度是非对称性的,即:



KL散度为什么不对称的一点解释

参考:
《数学之美》 吴军.

相关文章

  • 信息熵(香农熵)、条件熵、信息增益的简单了解

    信息熵(香农熵) 1948年,香农提出了 “信息熵(entropy)”的概念信息熵是消除不确定性所需信息量的度量,...

  • 信息的度量——熵

    问题的引出: 我们常说信息有用,那么它的作用是如何客观、定量的体现出来的呢?信息用途的背后是否有理论基础呢? 对于...

  • 信息的度量——熵

    信息熵:用来衡量事件不确定性,不确定性越大,熵越大。 对任意一个随机变量X,其熵定义为: 条件熵:有两个随机变量X...

  • 信息熵,KL散度,JS散度

    信息熵 信息熵(information entropy), 是一种度量随机变量包含信息的多少的指标。在介绍信息熵之...

  • 决策树算法梳理

    信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度) 信息熵:信息熵是度量样本集合纯度常用的一种指标。在信息论中...

  • “熵”的理解

    01 什么是“信息熵” 香农提出“信息熵”的概念,解决了对信息的量化度量问题。热力学中的热熵是表示分子状态混乱程度...

  • 决策树-ID3

    信息熵啥是信息熵?我们高中都学过热力学第二定律,熵是描述系统混乱程度的一个度量。熵值越大,系统越混乱。信息熵同样可...

  • 决策树(decision tree)

    一. 信息论 1. 熵(entropy) (1)熵:随机变量 不确定性 的 度量 (2)数据:信息+噪音 ①信息:...

  • 短语抽取模型

    基于互信息和左右信息熵实现短语抽取 信息熵是对于分布纯净度的一个度量,这个值随着分布的纯净增加而降低。基于信息熵的...

  • NLP-信息熵、条件熵、互信息的简介

    一、信息熵 1948年,香农在他的《通信的数学原理》中提出了的概念,解决了信息的度量问题,如何理解信息的度量,通俗...

网友评论

      本文标题:信息的度量——熵

      本文链接:https://www.haomeiwen.com/subject/nitzmctx.html