一、信息量
交叉熵是信息论中的概念,了解信息熵的本质,需要先了解信息
在生活中, 我们常常听到说“xxxx事情信息量很大”。从言语中我们能分析出这件事情可能是爆炸性的新闻。接下来我们来分析一下:
事件A: 新发布的iphone一台 7000 人名币
事件B: 新发布的iphone不要钱,免费送
你可能会感叹 事件B 的信息量有点大, 的确如此,因为事件B发生的可能性很小,我们要确认事件B,需要再去获取其他信息作为填充。 而事件A发生的概率很大,基本上不用再去获取其他信息就可以确认。
所以一条消息的信息量是和事件发生的概率相关。
imagex0 : 代表事件
P(x0) : 代表x0事件发生的概率
I(x0) : 代表x0所包含的信息量
二、熵
上面描述的是单个事件一个可能所包含的信息量, 接下来,我们来描述一下单个事件所有可能所产生的信息量。
例如: 明天的天气,可能是雨天、晴天、雾天 等等
imageH(X) 表示的就是熵
三、相对熵(KL散度)
用于衡量对于同一个随机变量x的两个单独的概率分布P(x)和Q(x)之间的差异。对比同一个事件的两个分布P(x) 和 Q(x)的差异。
==先复习一下 对数相加减法==
image相对熵的公式如下
imageKL 越小模型越接近
四、交叉熵
交叉熵,实际上是相对熵变形提取
image训练中label是固定,所以-H(P(x))是常量,所以如果要使KL最,我们只需要优化后半部分
image
==交叉熵广泛用于逻辑回归的Sigmoid和Softmax函数中作为损失函数使==
网友评论