信息熵
信息量:用来度量一个信息的多少。
解释:获取者对它的了解程度相关,概率越大认为它的信息量越小,概率越小认为它的信息量越大。
用以下式子定义:
信息熵用来描述一个信源的不确定度,也是信源的信息量期望。
对这个信源信号进行编码的理论上的平均最小比特数(底数为2时)。
式子定义如下(log 的底数可以取2、e等不同的值,只要底数相同,一般是用于相对而言的比较):
意义:该式子对依据概率分布P生成的符号进行编码所需的比特数在平均意义上的下界。
信息出现频率高,分配比特数要小:
同理频率低的,分配大。
概率低→定义信息量高;概率低→定义编码长度长。
信息熵范围
接近确定的分布有较低的熵;接近均匀分布的概率分布有较高的熵。
![](https://img.haomeiwen.com/i21103376/8b961f01a590ed84.png)
在信源中出现的消息的种数一定时,这些消息出现的概率全都相等时,有信源的信息熵最大。
推出信息熵的范围:
其中n是不同信息数
相对熵(KL散度)
相对熵:在信息论中度量两个信源的信号信息量的分布差异。
机器学习中直接把其中的信息量等概念忽略了,当做损失函数,用于比较真实和预测分布之间的差异。
式子定义如下:
KL散度衡量的是,当我们用一种能使概率分布Q产生的消息的长度最小的编码,发送由分布P产生的消息时,所需要的额外信息量。
用使得P分布产生的消息长度最小的编码,来发送P分布产生的消息时,
对于某符号x
编码信息量:
概率是:
P分布平均每个符号要编码的信息量:
即是P分布的信息熵
同理:
Q分布产生的消息长度最小的编码,来发送P分布产生的消息时
对于某符号x
编码信息量:
概率是:
P分布平均每个符号要编码的信息量:
这是P和Q的交叉熵
额外信息量即:
P分布信息熵与P和Q的交叉熵之差
两个分布相同时,它们的KL散度为0
KL散度性质:
1.KL散度不是一个对称量
![](https://img.haomeiwen.com/i21103376/d28fb695cf211615.png)
2.KL散度非负
由Jenson不等式可证明KL散度非负,此处不证明了。
JS散度
JS散度:度量两个概率分布的相似度
JS散度是对称的,取值是0到1之间
公式如下
交叉熵
交叉熵式子定义:
此处是x到p(x)注意,简书公式果然不好用(QAQ)下一次手推吧
假如P是真实分布,当使用DKL(P||Q)作为损失函数
因为只含P的那一项并不会随着拟合分布Q的改变而改变。
所以这时候损失函数可以使用H(P,Q)来代替简化。
由于可看出H(P,Q)比H(p)大
条件熵
条件熵中X和Y不是分布而是随机变量
表示在已知随机变量 X的条件下 随机变量 Y的不确定性
注意:这里的X并不是某个确定值,而是随机变量,所以在计算熵的时候要对所有进行求和
化简就略了吧:
实际上定义的就是在所有X的条件下,Y的混乱度的平均值。
互信息
互信息:
1.用来度量两个随机变量之间的相互依赖程度
2.度量能从一个随机变量中获取的另一个随机变量的信息量。
3.当一个随机变量已知时,另一个随机变量的不确定性的减少程度
互信息值也等于Y的信息熵减去X和Y的条件熵。
联合熵
联合熵也是用随机变量而不是分布来表示,定义如下:
衡量随机变量X和随机变量Y的联合概率密度的信息熵大小。
(数学公式功能不好用)
网友评论