美文网首页
交叉熵推导

交叉熵推导

作者: 扎哈_ | 来源:发表于2021-11-13 17:53 被阅读0次

定义:

  • 信息量公式:
    (一个事件发生时,所包含的信息量,发生的概率越低,包含的信息量就越高,比如明天的太阳打东边升起,就是一句几乎不包含信息的话)
    I(x_0)=-log(p(x_0))
    其中x_0为随机变量的某个特定值,p是随机变量X的概率质量函数
  • 熵公式:
    (随机变量的信息量的期望值)
    离散:
    \begin{aligned} H(X)=E[I(X)]&=\sum_{i=1}^{m} I(x_i)p(x_i) \\ &=\sum_{i=1}^{m} -log(p(x_i))p(x_i) \\ &=-\sum_{i=1}^{m} p(x_i)log(p(x_i)) \end {aligned}
    连续:
    暂时不讨论
  • 相对熵:
    (KL散度,讨论的是一个概率如果用另一个概率来描述时,它所需要的额外信息量,被称为信息增量)
    现在存在两个概率pq,他们都是随机变量X的分布函数,现在它们的信息熵分别为:
    \begin {aligned} H_p(X)=E_p[I(X)]&=-\sum_{i=1}^{m} p(x_i)log(p(x_i)) \end {aligned} \\ \begin {aligned} H_q(X)=E_q[I(X)]&=-\sum_{i=1}^{m} q(x_i)log(q(x_i)) \end {aligned}
    \begin {aligned} D_{KL}(p||q)=\sum_{i=1}^m p(x_i) ln(\frac {p(x_i)} {q(x_i)}) \end {aligned}

推导可得交叉熵

  • 交叉熵:
    \begin {aligned} D_{KL}(p||q)&=\sum_{i=1}^m p(x_i ) ln(\frac {p(x_i)} {q(x_i)}) \\ & =\sum_{i=1}^m p(x_i) [ln(p(x_i)) - ln(q(x_i))] \\ & =\sum_{i=1}^m p(x_i)ln(p(x_i)) - \sum_{i=1}^m p(x_i) ln(q(x_i)) \\ & = -H(X) + [-( \sum_{i=1}^m p(x_i) ln(q(x_i)))] \end {aligned}
    其中,-( \sum_{i=1}^m p(x_i) ln(q(x_i)))就是交叉熵。
    H(p, q)=-\sum_{i=1}^m p(x_i) ln(q(x_i))

参考:
一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉-史丹利复合田
期望值-维基百科
相对熵-维基百科

相关文章

网友评论

      本文标题:交叉熵推导

      本文链接:https://www.haomeiwen.com/subject/ogkzzltx.html