美文网首页
信息熵的前世今生

信息熵的前世今生

作者: WinterPrince | 来源:发表于2019-05-22 16:50 被阅读0次

1. 熵的由来

熵最早出现于热力学中,是衡量分子混乱程度的物理量。它表明宇宙中一切事物的总趋势都朝着混乱无序的状态发展,且是不可逆的。

2. 信息熵

1948年信息论之父香农将熵引入到了信息论之中,信息从此能被量化,信息熵正式登场。

信息熵既是对不确定性的度量,也是对信息量的度量。

试想,事物的不确定性很大,我们对它了解很少甚至一无所知,那么当我们从“一无所知”变为“胸有成竹”时,我们一定得到了有关它的大量信息,即不确定性 \Uparrow(越大) ,则传递信息量\Uparrow(越大)。当然也可认为不确定性\Uparrow事物本身信息量\Downarrow。为方便记忆,一般我们取前者。

2.1 为什么信息熵公式长这样?

定义信息熵符号为E (entropy),随机变量为X,则
E(X)=-\sum_{x}{p(x)\log{p(x)}}

假定我们不知道信息熵的公式,想从信息熵的性质出发来推断E(x)到底是个什么样的函数形式。但在此之前,我们不妨先忘掉信息熵,只关注信息量(又称为自信息,self \quad information)。本文用I(x)表示随机事件x发生时传递的信息量。

由前文可知,信息量与不确定性的关系应为单调递增单调递减(人为定义),所以I(x)应该能由随机变量X的概率分布p(x)表示,这里的xX中的某个随机事件,或者说取值。
I(x)=f(p(x))

我们想从信息量的性质出发得到一个度量信息量的公式,那么它应该具有如下性质:

  1. 有两个独立随机事件x,y,则x,y同时发生所包含的信息量应该等于x,y单独发生时所包含的信息量之和。
  2. 不确定性越大,信息量越大。 (人为定义)
  3. 信息量大于0。 (人为定义)

由性质1可得:I(x,y)=I(x)+I(y)

又因为p(x,y)=p(x)p(y)

所以f(p(x)p(y))=f(p(x))+f(p(y))
看到这里,我们应该能想到I(x)中包含对数形式,不妨设
I(x)=q(x)\log_{2}{p(x)}

其中q(x)是未知函数。性质中不知底数大小,但可知单调递增,因此假设为2。为求简洁,之后公式中省略底数。

按上述公式展开,得
I(xy)=q(xy)\log{(p(x)p(y))}=q(x)\log{p(x)}+q(y)\log{p(y)}

要使上述等式对任意独立的随机事件x,y都成立,只能是
q(x)=q(y)=q(xy)

因此q(x)=\alpha 阿尔法为任意常数。

由此我们得到了信息量的表达式
I(x)=\alpha\log_{2}{p(x)}

再结合性质3,可知\alpha<0,并且这个系数对我们度量信息量并无太大影响,因为所有的随机事件度量信息量时都要乘上这个系数,"一视同仁"。那么就设为最简单的-1吧。底数大小同理。

有了信息量的公式,我们发现它是随机事件发生概率的对数值。假设有一个随机变量X,它包含了很多个随机事件,我们想知道这个随机变量带给了我们多少信息量,但我们事先不知道这个随机变量的值是多少,只能预先估计,对随机变量所有事件都按概率取值并计算信息量,也就是X的信息量期望,它也被称呼为信息熵

至此我们得到了信息熵的表达式,它是对随机变量不确定性的度量,是对所有可能发生的随机事件的期望。

E(X)=-\sum_{x}{p(x)\log{p(x)}}

从公式可知,随机变量的取值个数越多,状态数也就越多,信息熵就越大,混乱程度就越大。当随机分布为均匀分布时,熵最大。信息熵只与随机变量的分布有关,与其值无关。

2.2 联合熵

上述是一元随机变量,我们把它推广到多元随机变量
E(X,Y)=-\sum_{x,y}p(x,y)\log{p(x,y)}

2.3 条件熵

在条件分布的基础上,来定义条件熵,已知随机变量X取了某个值m,那么随机变量Ym条件下的熵就是
E(Y\mid X=m)=-\sum_{y}p(y\mid m)\log{p(y\mid m)}

现在不知道随机变量X取了什么值,需要预先估计Y的熵对X的期望,因此
E(Y \mid X)=-\sum_{x}p(x)\sum_{y}p(y\mid x)\log{p(y\mid x)}

通俗来说,如果X,Y同时取某两个事先不知道的值,那么它的信息熵(平均信息量)有E(X,Y)这么多,而X单独取值时它的信息熵(平均信息量)是E(X),自然E(X,Y)-E(X)就是Y在已知X的条件下的平均信息量。

注意,上述X,Y并没有假设为相互独立,我们前面假设的是随机事件x,y相互独立,针对的是信息量(self\; information),二者并不矛盾。进一步,如果假设X,Y独立,则E(X,Y)-E(X)=E(Y)

3.结语

将熵引用到信息论中是一个影响深远的决策。下篇文章我们将看到诸多以熵为基础的公式、模型发挥真正威力,see\; you \;then~

参考

信息熵

相关文章

  • 信息熵的前世今生

    1. 熵的由来 熵最早出现于热力学中,是衡量分子混乱程度的物理量。它表明宇宙中一切事物的总趋势都朝着混乱无序的状态...

  • 熵、条件熵、信息增益(互信息)

    信息增益 首先明确一点,信息熵是信息量的期望!期望!期望!(各种信息熵都是如此,像熵、条件熵、信息增益)熵:表示随...

  • 一文理解机器学习中的各种熵

    本文的目录组织如下: 【1】自信息【2】熵(香农熵)【3】联合熵【4】条件熵【5】互信息(信息增益)【6】 熵、联...

  • ID3与C4.5算法

    写在开始 在开始决策树算法之前,我们需要准备一些信息论的知识: 信息熵 条件熵 信息增益 交叉熵 相对熵 信息熵 ...

  • 决策树算法梳理

    信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度) 信息熵:信息熵是度量样本集合纯度常用的一种指标。在信息论中...

  • 信息熵(香农熵)、条件熵、信息增益的简单了解

    信息熵(香农熵) 1948年,香农提出了 “信息熵(entropy)”的概念信息熵是消除不确定性所需信息量的度量,...

  • 将军在上之男昭女惜重生三世千年孽缘

    前世!今生!来世再续! 前世欠谁!今生还!来世再续前缘! 前世因!今生续!来世果!

  • 信息熵与最大熵模型

    信息熵是什么?机器学习入门:重要的概念---信息熵(Shannon’s Entropy Model)信息熵信息论中...

  • 机器学习之决策树

    信息熵: 信息熵描述信息源的不确定程度,信息熵越大、越不确定. 信息熵公式: 例子: 假设中国乒乓球队和巴西乒乓球...

  • 走出命运的迷宫 - 谈「熵」的前世今生

    假设世界末日到了,诺亚方舟上只能够携带一个信封,信封背面,你可以总结所有人类知识,那你们会写下什么? 已故物理学家...

网友评论

      本文标题:信息熵的前世今生

      本文链接:https://www.haomeiwen.com/subject/ofmlzqtx.html