![](https://img.haomeiwen.com/i8207483/3a5df2ee590fe6e7.png)
信息熵公式的推导
学过概率后,如果两个事件 x 和 y 是独立,这个应该不难理解
首先我们已经知道了信息熵和概率关系是成反比,也就是说概率越大信息熵越小,这个应该也不难理解,如果一个一定会发生事,例如太阳从东方升起,这个事件给我们带来信息量非常小
![](https://img.haomeiwen.com/i8207483/486e514a2beeaf77.jpeg)
我们知道函数模样如下图,
是一个增函数
![](https://img.haomeiwen.com/i8207483/5167cb7e309e678b.png)
如果对函数添加负号就变成减函数,而且在 0 - 1 区间函数值符号我们要求就是在 1 时函数值为 0 而接近 0 时为无穷大
![](https://img.haomeiwen.com/i8207483/cfd0f1caf3c84759.png)
然后我们进步想象一下如果希望两个事件的信息量也是可以做加减
而且 本质还可将乘法变成加法,这符合我们对熵表达
X | 0 | 1 |
---|---|---|
概率 | 1 - p | p |
信息量 | -ln (1 - p) | -ln p |
期望 |
大家都知道信息熵很大事件并不是大概率事件,所有我们根据期望公式对 logP 求期望就得
信息熵的概念
上面离散情况下求信息熵
条件熵公式的推导
- 我们知道x 和 y 的熵,也知道 x 的熵
- 如果我们用 H(x,y) 减去 H(x) 的熵,那么就等价了 x 是确定性
- 也就是在已知 x 的条件下计算 y 的熵,这就是条件熵的概念
在 x 给定掉件 y 的信息熵,(x,y) 发生所包含的熵,减去 X 单独发生包含的熵:在 x 发生的前提下, y 发生新带来的熵。
下面我们来推导一下条件熵
公式中可以写出
把所有的 y 加起来,进行积分去掉 y
那么我们利用学过概率就知道
上面推导的公式结果 要是能够变成
形式我们看起来就会舒服多了。
我们将 替换为
可以理解为 x 给定值时候 H(y) 因此我们就可以写成下面的公式
网友评论