美文网首页
信息论、最大熵模型、EM算法

信息论、最大熵模型、EM算法

作者: 陈文瑜 | 来源:发表于2019-10-19 11:43 被阅读0次

基础概念

  • 什么是信息

当一件事情(宏观态)有多种可能情况时,这种情况(宏观态)对某人而言具体有哪些情况(微观态)的不确定性 叫做熵。
而能够消除某人对这件事(宏观态)不确定性的事情 叫做信息。
熵和信息数量相等,意义相反(消除熵 = 获取信息)
数据 = 信息 + 噪音

  • 量化信息

选择的参考事件是 只有两种等概率情况的事件,0 1 (同时也是计算机存储信息的方式bit
举例:抛掷硬币3 次 出现的可能情况为8种,2^3=8 \rightarrow log_2 8 = 3
则抛掷硬币3次 所包含的熵 有3bit,即8个不确定情况 相当于3个硬币抛出的结果

提供信息后总的熵.png
求得提供信息后剩余的总熵 即有一半可能是C提供了的信息

熵表示的是不确定性,相加是所有剩余的不确定性总和。2-1.79=0.21bit表示的是消除熵 = 获取的信息 即提供的信息量

自信息

  • 信息:i(x) = -log(p(x))

如果说概率p 是确定性的度量,那么信息就是对不确定性的度量
p(xy)=p(x)p(y)\quad i(xy) = i(x) + i(y)

  • 熵:自信息的期望

熵是对平均不确定的度量
H(X) = - \sum_{x\in X}P(x) \times logP(X)
单个值-xlog(x)
如果结果只有两个,那么熵为 -xlog(x)-(1-x)*log(1-x)是不是和逻辑回归的损失函数一样丫

熵.png
  • 三点分布的熵图


    三点分布.png
  • 理解

均匀分布是最不确定的分布,比如硬币的正反面,你猜不出下一次到时是正面还是反面。

互信息

  • 定义 i(y,x)=i(y)-i(y|x) = log(p(y|x)/p(y)) = i(x,y)

可以理解为,我们在得知了部分条件下y的情况,那么y的剩余信息就逐渐变少。

  • 平均互信息
    I(X;Y)=\sum_{x \in{X},y \in {Y}}P(x,y)log\frac{P(x,y)}{P(x)P(y)}

相关文章

网友评论

      本文标题:信息论、最大熵模型、EM算法

      本文链接:https://www.haomeiwen.com/subject/rpigmctx.html