-
自信息
简单来说,自信息表述的是随机变量的某个事件发生带来的信息量(一个事件)
image-20200403221749825.png
-
信息熵
信息熵表述的是随机变量所有事件发生产生的信息量的期望(所有时间)
使用更短的编码来描述更可能的事件,使用更长的编码来描述不太可能的事件。可以引出熵和最短编码长度的关系:熵是传输一个随机变量状态所需的最短平均编码长度。
image-20200403221954543.png
-
条件熵
image-20200403222333383.png条件熵相当于联合熵减去单独的熵,可以理解做:描述X本身所需的信息,加上给定X条件下具体化Y所需要的额外信息
image-20200403222444993.png
-
相对熵,也称KL散度
image-20200403222709737.png
相对熵可以用来衡量两个概率分布之间的差异
-
交叉熵
image-20200403222850066.png
而使用非真实分布来表示来自真实分布样本的平均编码长度则为:
image-20200403222957092.png
image-20200403223049960.png-
以下也是我们在机器学习中使用交叉熵作为损失函数的原因,由于真实分布是定值,因此最小化相对熵等价于最小化交叉熵,我们最小化交叉熵来使模型逼近真实分布
image-20200403223305349.png
-
- image-20200403223517907.png
网友评论