基本思想
基本思想:一个不太可能发生的事件发生了,比一个非常可能发生的事件包含的信息更多。比如,“今天太阳升起了”没有必要告诉别人,但是“今天有日食”信息量就比较丰富。
通过这个基本思想来量化信息,其性质如下:
1. 非常可能发生的事件信息量少,并且在极端情况下,确保能够发生的时间应该没有什么信息量
2.比较不可能发生的事件包含较多的信息量
3. 独立事件应该具有增量的信息。e.g. 投掷硬币两次都正面朝上的信息量应该是投掷硬币一次正面朝上的信息量的两倍
信息量
信息量(self-information)可以用来描述事件的信息,定义一个事件x=
其单位为奈特(nats) 1nats 表示以1/e 的概率观测到一个事件所获得的信息量。
(这里log是以e为底,也有使用以2为底的对数,其单位为bit或者香农shannons)
信息熵又称为香农熵 Shannon/Information entropy
信息量是对单一事件信息的描述,而香农熵可以用来对整个概率分布中的不确信性总量进行量化,可以理解为一个分布的Shannon entropy是指遵循这个分布的事件所产生的期望信息总量。其表达式如下:
也记做
e.g. 二值随机变量的香农熵
![](https://img.haomeiwen.com/i5985029/dcb0d521dbd57e65.png)
x轴是p,表示二值随机变量等于1的概率
y轴是表示熵,公式为
当p接近0或者1时,分布几乎是确定的,此时随机变量几乎为0,但是当p=0.5时,熵最大,因为分布是均匀的。这里也说明,接近均匀分布的概率分布具有较高的熵。
以上是离散分布的例子,当x是连续的,香农熵也被称为微分熵(differential entropy)。
KL散度 Kullback-Leibler(KL) divergence & 交叉熵 cross-entropy
Wiki的定义: In mathematical statistics, the Kullback–Leibler divergence (also called relative entropy) is a measure of how one probability distribution is different from a second, reference probability distribution.
KL散度,又称为相对熵 relative entropy 是用来评估两个概率分布的差异性。即对于一个随机变量x有两个独立的概率分布和
,可以使用KL散度来衡量这两个分布的差异。其公式如下:
性质:
1. 结果非负数
2.KL=0, 当且仅当 IFF P Q在离散情况下具有相同的分布或者在连续的情况下分布处处相同
3. 可以看作分布之间的距离,但并非真正的距离,因为KL是非对称的,即
4.
e.g. 不对称性
![](https://img.haomeiwen.com/i5985029/0b3f8a567936b7fe.png)
假设当前有一个分布p(x), 我们希望找到一个分布q(x)来近似它。p混合两个高斯的分布 q是一个高斯分布。
左图是的绿线是最小化的q的分布图,它优先考虑在p的高概率地方设置高概率,因为p有两个峰,q会将这两个峰进行模糊,以便将高概率的部分对应到p的每个山峰(高概率部分)。
左图是的绿线是最小化的q的分布图,它优先考虑在p的低概率地方设置相同的低概率,因为p山峰的间隔很宽,所以q会优先选择p的一个山峰。当然 选择右山峰具有相同的效果。
交叉熵 cross-entropy
交叉熵与KL散度类似,其公式如下:
条件熵 conditional entropy
Wiki的定义:In information theory, the conditional entropy (or equivocation) quantifies the amount of information needed to describe the outcome of a random variable given that the value of another random variable
is known.
简单说来,就是已知随机变量X的前提下,Y的信息熵 ,记为
刚好看到一道条件熵的题目,补充一下:
一个二进制源的X发出的符号集为{-1,1}, 经过离散无记忆信道传输,由于信道中噪音的存在,接收端Y收到的符号集为{-1,1,0}。已知P(x=-1)=1/4, P(x=1)=3/4, P(y=-1|x=-1)=4/5, P(y=0|x=-1)=1/5, P(y=1|x=1)=3/4, P(y=0|x=1)=1/4,求条件熵H(Y|X)
根据以上公式
网友评论