信息熵

作者: 路过的飞碟 | 来源:发表于2020-11-30 14:34 被阅读0次


信息熵

信息量:用来度量一个信息的多少。

解释:获取者对它的了解程度相关,概率越大认为它的信息量越小,概率越小认为它的信息量越大。

用以下式子定义:

I(x)=−logp(x)

信息熵用来描述一个信源的不确定度,也是信源的信息量期望。

对这个信源信号进行编码的理论上的平均最小比特数(底数为2时)。

式子定义如下(log 的底数可以取2、e等不同的值,只要底数相同,一般是用于相对而言的比较):

H(X)

=Ex∼X[I(x)]

=Ex∼X[−logx]

=−∑x∈X[p(x)logp(x)]

意义:该式子对依据概率分布P生成的符号进行编码所需的比特数在平均意义上的下界。

信息出现频率高,分配比特数要小:

同理频率低的,分配大。

概率低→定义信息量高;概率低→定义编码长度长。

信息熵范围

接近确定的分布有较低的熵;接近均匀分布的概率分布有较高的熵。

分布与熵

在信源中出现的消息的种数一定时,这些消息出现的概率全都相等时,有信源的信息熵最大。

推出信息熵的范围: 

0≤H(X)≤−\sum\nolimits_{}^n 1/nlog(1/n)=log(n)

其中n是不同信息数

相对熵(KL散度)

相对熵:在信息论中度量两个信源的信号信息量的分布差异。

机器学习中直接把其中的信息量等概念忽略了,当做损失函数,用于比较真实和预测分布之间的差异

式子定义如下:

DKL(P||Q)

=Ex∼P[logP(x)Q(x)]

=Ex∼P[logP(x)−logQ(x)]

KL散度衡量的是,当我们用一种能使概率分布Q产生的消息长度最小的编码,发送由分布P产生的消息时,所需要的额外信息量

用使得P分布产生消息长度最小的编码,来发送P分布产生的消息时,

对于某符号x

编码信息量:−logP(x)

概率是:P(x)

P分布平均每个符号要编码的信息量:∑x∈P[−P(x)logP(x)]=H(P)

即是P分布的信息熵

同理:

Q分布产生消息长度最小的编码,来发送P分布产生的消息时

对于某符号x

编码信息量:−logQ(x)

概率是:P(x)

P分布平均每个符号要编码的信息量:∑x∈P[−P(x)logQ(x)]=H(P,Q)

这是P和Q的交叉熵

额外信息量即:

P分布信息熵与P和Q的交叉熵之差

两个分布相同时,它们的KL散度为0

KL散度性质:

1.KL散度不是一个对称量

KL散度不是一个对称量

2.KL散度非负

由Jenson不等式可证明KL散度非负,此处不证明了。

JS散度

JS散度:度量两个概率分布的相似度

JS散度是对称的,取值是0到1之间

公式如下

交叉熵

交叉熵式子定义:

H(P,Q)=−Ex∼P(x)logQ(x)

此处是x到p(x)注意,简书公式果然不好用(QAQ)下一次手推吧

假如P是真实分布,当使用DKL(P||Q) DKL(P||Q)作为损失函数

因为只含P的那一项并不会随着拟合分布Q的改变而改变。

所以这时候损失函数可以使用H(P,Q)来代替简化

由于H(P,Q)=DKL(P||Q)+H(P)可看出H(P,Q)比H(p)大

条件熵

条件熵H(Y|X)中X和Y不是分布而是随机变量

H(Y|X)表示在已知随机变量 X的条件下  随机变量 Y的不确定性

注意:这里的X并不是某个确定值,而是随机变量,所以在计算熵的时候要对所有H(Y|X=x)进行求和

化简就略了吧:

实际上定义的就是在所有X的条件下,Y的混乱度的平均值。 

互信息

互信息:

1.用来度量两个随机变量之间的相互依赖程度

2.度量能从一个随机变量中获取的另一个随机变量的信息量。

3.当一个随机变量已知时,另一个随机变量的不确定性的减少程度

互信息值也等于Y的信息熵减去X和Y的条件熵。

联合熵

联合熵也是用随机变量而不是分布来表示,定义如下:

H(X,Y)=−∑x∑yP(x,y)log2P(x,y)

衡量随机变量X和随机变量Y的联合概率密度的信息熵大小。

(数学公式功能不好用)

相关文章

  • 熵、条件熵、信息增益(互信息)

    信息增益 首先明确一点,信息熵是信息量的期望!期望!期望!(各种信息熵都是如此,像熵、条件熵、信息增益)熵:表示随...

  • 一文理解机器学习中的各种熵

    本文的目录组织如下: 【1】自信息【2】熵(香农熵)【3】联合熵【4】条件熵【5】互信息(信息增益)【6】 熵、联...

  • ID3与C4.5算法

    写在开始 在开始决策树算法之前,我们需要准备一些信息论的知识: 信息熵 条件熵 信息增益 交叉熵 相对熵 信息熵 ...

  • 决策树算法梳理

    信息论基础(熵 联合熵 条件熵 信息增益 基尼不纯度) 信息熵:信息熵是度量样本集合纯度常用的一种指标。在信息论中...

  • 信息熵(香农熵)、条件熵、信息增益的简单了解

    信息熵(香农熵) 1948年,香农提出了 “信息熵(entropy)”的概念信息熵是消除不确定性所需信息量的度量,...

  • 信息熵与最大熵模型

    信息熵是什么?机器学习入门:重要的概念---信息熵(Shannon’s Entropy Model)信息熵信息论中...

  • 机器学习之决策树

    信息熵: 信息熵描述信息源的不确定程度,信息熵越大、越不确定. 信息熵公式: 例子: 假设中国乒乓球队和巴西乒乓球...

  • 熵之道

    熵的定义如下: 互信息 = H(D) - H(D|A) 信息增益 = 经验熵 - 经验条件熵; 互信息和信息增益理...

  • 联合信息熵和条件信息熵

    下面这几个熵都是描述联合分布中的两个变量相互影响的关系。 联合信息熵 联合信息熵的定义如下: 条件信息熵 条件信息...

  • cross entropy交叉熵和ground truth总结

    一.cross entropy 交叉熵 交叉熵的概念得从信息熵的概念说起,我们都知道信息熵,简而言之就是信息量多少...

网友评论

      本文标题:信息熵

      本文链接:https://www.haomeiwen.com/subject/gutxxhtx.html