作者: 雨住多一横 | 来源:发表于2019-04-26 21:09 被阅读0次
  • 信息量
    I\left (x \right) = -logp\left( x \right)
    信息量中基的选择是任意的,信息论里为2,所以信息的单位为bits,而机器学习中常常选择自然数,因此单位常常是nats,信息量I也被称为随机变量x的自信息,表示x发生所带来的信息量

  • 信息熵:随机变量的不确定性,量化为随机变量所有可能取值的信息量的期望
    H\left ( X \right ) = -\sum_{i = 1}^{n}p\left ( x_i \right )logp\left ( x_i \right )
    这里可以发现,随机变量取值的可能情况越多,熵越大,随机变量越乱,当随机变量呈均匀分布时,熵最大,且可以证明:0 <= H(x) <= logn
    熵只依赖于随机变量的分布,和其取值无关
    0log0 = 0(因为随机变量取某个值的概率可能为0)
    香农定理表明,熵是传输一个随机变量所有状态所需比特位数的下界

  • 联合熵:一维随机变量熵向多维扩展就是联合熵
    H\left ( X,Y \right ) = -\sum_{i = 1}^{n}\sum_{j = 1}^{m}p\left ( x_i ,y_j\right )logp\left ( x_i, y_j \right )

  • 条件熵:p(Y|X)定义为在X给定的条件下Y的条件概率分布的熵对X的期望
    H\left ( Y|X \right )= \sum_{x}p\left ( x \right )H\left ( Y|X=x \right )\\ =-\sum_{x,y} p\left ( x,y \right )log p\left ( y|x\right )
    条件熵相当于联合熵监督条件的熵,即:
    H(Y|X) = H(Y, X) - H(X)

  • 相对熵:也称为KL散度
    D_{KL}\left ( p||q \right )=\sum_xp\left ( x \right )\left ( logp\left ( x \right )-logq\left ( x \right ) \right )\\ = \sum_xp\left ( x \right )log\frac{p\left ( x \right )}{q\left ( x \right )}

    • 如果p(x) = q(x)则相对熵为0
    • D_{KL}(p||q) \neq D_{KL}(q||p)
    • D_{KL}(p||q) > 0

    相对熵用来衡量两个概率分布的差异,这个正好迎合机器学习中最小化目标模型分布和训练集分布差异的需求
    相对熵是指用 q 来表示分布 p 额外需要的编码长度。

  • 交叉熵:
    H(p, q) = -\sum_x p(x)logq(x)
    对比相对熵的公式可以发现:
    D_{KL}(p||q) = H(p, q) - H(p)
    所以,两个分布的交叉熵实际上就是用一个分布编码满足另一个分布的随机变量相对于用它本来的分布编码所需的额外字节数
    在机器学习中,H(p)是个常量(训练集确定),所以最小化相对熵就等价于最小化交叉熵(也等价于最大化似然函数)
    交叉熵广泛应用于逻辑回归中的sigmoid和softmax函数中作为损失函数
    交叉熵是指用分布 q 来表示分布 p 的平均编码长度

相关文章

  • 一、看文章 “熵”不起:从熵、最大熵原理到最大熵模型(一)“熵”不起:从熵、最大熵原理到最大熵模型(二)“熵”不起...

  • 机器学习-面试总结

    决策树问题 1)各种熵的计算熵、联合熵、条件熵、交叉熵、KL散度(相对熵) 熵用于衡量不确定性,所以均分的时候熵最...

  • 熵增原理简史(一)

    前 言 熵增原理简史,从熵的概念、熵的研究史、熵增原理、宇宙熵增和广义熵增原理五方面阐述。特别是后两块内容,对熵...

  • 一文理解机器学习中的各种熵

    本文的目录组织如下: 【1】自信息【2】熵(香农熵)【3】联合熵【4】条件熵【5】互信息(信息增益)【6】 熵、联...

  • 机器学习中的熵、条件熵、相对熵(KL散度)和交叉熵

    GitHub简书CSDN 该文章转载自详解机器学习中的熵、条件熵、相对熵和交叉熵 1、信息熵 (informati...

  • 各种熵,条件熵,KL

    熵、条件熵、交叉熵、相对熵 参考《统计学习方法》李航 通俗理解信息熵 - 忆臻的文章 - 知乎 https://z...

  • 【原创|发展】 华为其实一直在做一件事

    关键词:热力学定律 熵增熵减 负熵熵死 华为的冬天 创新发展 耗散模型 在商言熵 自我...

  • 熵、条件熵、信息增益(互信息)

    信息增益 首先明确一点,信息熵是信息量的期望!期望!期望!(各种信息熵都是如此,像熵、条件熵、信息增益)熵:表示随...

  • 机器学习算法系列(三):最大熵模型

    一、 熵与条件熵 熵度量的是事物的不确定性。越不确定的事物,它的熵就越大。具体的,随机变量熵的表达式为: 且熵满足...

  • 信息熵相关的定义定理

    1. 信息熵 // todo 2. 条件熵 // todo 3. 联合熵 // todo 4. 相对熵KL距离 5...

网友评论

      本文标题:

      本文链接:https://www.haomeiwen.com/subject/gqxcnqtx.html