美文网首页
交叉熵推导

交叉熵推导

作者: 扎哈_ | 来源:发表于2021-11-13 17:53 被阅读0次

    定义:

    • 信息量公式:
      (一个事件发生时,所包含的信息量,发生的概率越低,包含的信息量就越高,比如明天的太阳打东边升起,就是一句几乎不包含信息的话)
      I(x_0)=-log(p(x_0))
      其中x_0为随机变量的某个特定值,p是随机变量X的概率质量函数
    • 熵公式:
      (随机变量的信息量的期望值)
      离散:
      \begin{aligned} H(X)=E[I(X)]&=\sum_{i=1}^{m} I(x_i)p(x_i) \\ &=\sum_{i=1}^{m} -log(p(x_i))p(x_i) \\ &=-\sum_{i=1}^{m} p(x_i)log(p(x_i)) \end {aligned}
      连续:
      暂时不讨论
    • 相对熵:
      (KL散度,讨论的是一个概率如果用另一个概率来描述时,它所需要的额外信息量,被称为信息增量)
      现在存在两个概率pq,他们都是随机变量X的分布函数,现在它们的信息熵分别为:
      \begin {aligned} H_p(X)=E_p[I(X)]&=-\sum_{i=1}^{m} p(x_i)log(p(x_i)) \end {aligned} \\ \begin {aligned} H_q(X)=E_q[I(X)]&=-\sum_{i=1}^{m} q(x_i)log(q(x_i)) \end {aligned}
      \begin {aligned} D_{KL}(p||q)=\sum_{i=1}^m p(x_i) ln(\frac {p(x_i)} {q(x_i)}) \end {aligned}

    推导可得交叉熵

    • 交叉熵:
      \begin {aligned} D_{KL}(p||q)&=\sum_{i=1}^m p(x_i ) ln(\frac {p(x_i)} {q(x_i)}) \\ & =\sum_{i=1}^m p(x_i) [ln(p(x_i)) - ln(q(x_i))] \\ & =\sum_{i=1}^m p(x_i)ln(p(x_i)) - \sum_{i=1}^m p(x_i) ln(q(x_i)) \\ & = -H(X) + [-( \sum_{i=1}^m p(x_i) ln(q(x_i)))] \end {aligned}
      其中,-( \sum_{i=1}^m p(x_i) ln(q(x_i)))就是交叉熵。
      H(p, q)=-\sum_{i=1}^m p(x_i) ln(q(x_i))

    参考:
    一文搞懂交叉熵在机器学习中的使用,透彻理解交叉熵背后的直觉-史丹利复合田
    期望值-维基百科
    相对熵-维基百科

    相关文章

      网友评论

          本文标题:交叉熵推导

          本文链接:https://www.haomeiwen.com/subject/ogkzzltx.html