交叉熵

作者: 陈道乐 | 来源:发表于2020-03-27 18:02 被阅读0次

    一、信息量

    交叉熵是信息论中的概念,了解信息熵的本质,需要先了解信息

    在生活中, 我们常常听到说“xxxx事情信息量很大”。从言语中我们能分析出这件事情可能是爆炸性的新闻。接下来我们来分析一下:

    事件A: 新发布的iphone一台 7000 人名币
    事件B: 新发布的iphone不要钱,免费送

    你可能会感叹 事件B 的信息量有点大, 的确如此,因为事件B发生的可能性很小,我们要确认事件B,需要再去获取其他信息作为填充。 而事件A发生的概率很大,基本上不用再去获取其他信息就可以确认。

    所以一条消息的信息量是和事件发生的概率相关。

    image

    x0 : 代表事件
    P(x0) : 代表x0事件发生的概率
    I(x0) : 代表x0所包含的信息量

    二、熵

    上面描述的是单个事件一个可能所包含的信息量, 接下来,我们来描述一下单个事件所有可能所产生的信息量。

    例如: 明天的天气,可能是雨天、晴天、雾天 等等

    image

    H(X) 表示的就是熵

    三、相对熵(KL散度)

    用于衡量对于同一个随机变量x的两个单独的概率分布P(x)和Q(x)之间的差异。对比同一个事件的两个分布P(x) 和 Q(x)的差异。

    ==先复习一下 对数相加减法==

    image

    相对熵的公式如下

    image

    KL 越小模型越接近

    四、交叉熵

    交叉熵,实际上是相对熵变形提取

    image

    训练中label是固定,所以-H(P(x))是常量,所以如果要使KL最,我们只需要优化后半部分


    image

    ==交叉熵广泛用于逻辑回归的Sigmoid和Softmax函数中作为损失函数使==

    相关文章

      网友评论

          本文标题:交叉熵

          本文链接:https://www.haomeiwen.com/subject/svrruhtx.html