信息熵:用来衡量事件不确定性,不确定性越大,熵越大。
对任意一个随机变量X,其熵定义为:
![](https://img.haomeiwen.com/i4264437/3c1b6b20458f348c.png)
条件熵:有两个随机变量X和Y,在Y事件确定后X的不确定性的大小称为条件熵。条件熵的定义如下:
![](https://img.haomeiwen.com/i4264437/19082e2bb5438398.png)
互信息:信息的作用在于消除事件的不确定性,互信息作为两个事件(X,Y)相关性的度量,即在确定了其中一个事件Y的前提下,对消除另一个事件X的不确定性所提供的信息量。互信息的定义如下:
![](https://img.haomeiwen.com/i4264437/9ef140961df4bb8f.png)
确定了事件Y之后事件X的不确定性即条件熵H(X|Y),因此互信息又可表示为:I(X; Y) = H(X) - H(X|Y),即事件X总的不确定性 — 剩余的不确定性 = 确定Y使X不确定性减少的部分。推导部分如下:
![](https://img.haomeiwen.com/i4264437/d0521bfd20ab9885.png)
![](https://img.haomeiwen.com/i4264437/ebdc73c46f600820.png)
![](https://img.haomeiwen.com/i4264437/425c4cdafe775440.png)
上图中红色圆圈表示事件X的熵H(X),蓝色圈表示事件Y的熵,两个圈圈合起来的面积表示联合熵H(X, Y),而纯色的部分则表示条件熵(减去已知事件导致的熵减少),中间的交集互信息I(X; Y)表示事件X和Y的相关性。
相对熵(也即KL散度):相对熵也用于衡量相关性,但和变量的互信息不同,它用来衡量两个取值为正数的函数的相关性。定义如下:
![](https://img.haomeiwen.com/i4264437/c504170b64958e7d.png)
关于相对熵的三个结论:
1、对于两个完全相同的函数,他们的相对熵等于零;
2、相对熵越大,两个函数的差异越大,反之亦反;
3、对于概率分布或概率密度函数,若取值均大于零,相对熵可以度量两个随机分布的差异性。
需要注意的是KL散度是非对称性的,即:
![](https://img.haomeiwen.com/i4264437/959c609e1ce1db12.png)
![](https://img.haomeiwen.com/i4264437/e8dc868bb0cb29f2.png)
参考:
《数学之美》 吴军.
网友评论