美文网首页@产品程序员
信息论基础——统计自然语言处理基础笔记

信息论基础——统计自然语言处理基础笔记

作者: 个革马 | 来源:发表于2018-05-31 11:44 被阅读27次

    在香农的信息论里面,把信息本身看成是一个随机变量,因此要量化信息,自然就是同随机变量的概率以量化。

    关于熵的数理运算完全可用概率来理解,依然讲究变量之间的相互独立,同时概率之间相乘,在熵运算中变为可加性,变成相加。

    熵也可以从编码角度理解,熵就是对一个随机变量最短的平均编码程度。

    1. 自信息

    即随机变量等于某个事件的信息量。可以从编码的角度来理解,log是把事件编码之后所用位数的求解函数。

    2. 信息熵

    从现实意义理解,就是一个事件可能出现情况的混乱程度。可能发生的情况越多,可能发生的概率越大,则混乱程度越大。
    从数学上理解,即随机变量每种可能出现情况的自信息的期望——信息量的期望值。

    3. 联合熵

    即两个随机变量组合成的联合变量的信息熵。
    当且仅当,X 和 Y 相互独立, 整个系统的熵等于H(X) + H(Y).

    特性:

    1. 大于子系统的熵 H(X,Y)≥H(X)
      增加一个新系统不减少不确定性。

    2)子可加性 (Subadditivity) H(X,Y)≤H(X)+H(Y)

    4. 条件熵

    在已经知道X的情况下,Y的熵

    需要注意的一点是,条件熵是X的所有情况下Y信息熵之和。

    连锁规则

    H(X,Y) = H(X) + H(Y|X)
    H(X1,...,Xn) = H(X1) + H(X2|X1) + ... + H(Xn|X1,...,Xn-1)

    从此处可见熵的可加性,已知X情况下Y的熵加上X的熵等于X,Y均未知的熵。
    其实上述式子把H换成p,把+换成×,完全就是条件概率。

    5. 互信息

    简单来说就是,已知X情况下Y的信息熵减少的量。X,Y相互独立的时候,互信息为0,因为 H(X|Y) = H(X)。
    所以,互信息可以看成是X和Y两个变量之间的相关性的定量分析,互信息越大,相关性越强。

    在噪声信道模型中,香农把互信息作为信道质量的考量依据。计算输入发出信号X和接受信号Y的互信息,就可知道信道容量。互信息越大,说明XY相关性越强,从而有Y推知X的可行性越高。

    6. 交叉熵

    p为真实分布,q为假设分布。用真实出现的情况,计算假设分布q的信息量,并且求均值。就可以得到现在所得到的分布q在真实情况的熵(编码长度)

    自然语言处理中的交叉熵:

    语言样本很大的时候不必计算加权平均,所以有

    当n足够大的时候有:

    7. 相对熵(Kullback-Leibler距离)

    相对熵 = 交叉熵 - 信息熵
    求出真实分布与我们学习得到的分布是否一致

    8. 混乱度

    perplexity = 2交叉熵

    相关文章

      网友评论

        本文标题:信息论基础——统计自然语言处理基础笔记

        本文链接:https://www.haomeiwen.com/subject/gvnfsftx.html