*本笔记选自吴军《信息论40讲》
重点:
1信息熵
2香农第一定律
信息熵就是要从N1个选项当中确定一个正确选项所要用的最小信息量。信息熵的提出者是信息理论先驱香农(Claude·Elwood·Shannon),计算方法如下:
信息熵 =

理解起来也很简单,是每次将N1个选项分为两半,验证正确选项是否在其中一半,这一bit信息就能排除一半的选项,再将包含正确选项的一半拿来再次验证,如此往复就用最少的次数找到正确现象,而这个次数(也代表了信息量)正好就是。
在信息编码中,所有的编码进制都有相同的信息熵。比如表示100以内的数,无论是用100个不同的符号来表示,还是用2个十进制数来组合表示,两种编码一个字符的信息量相同,因为这个量是由信息熵本身来决定的。
简单的计算下:确定100以内的只用一个符号即可,也就是说这一个字符就代表了猜中100数中1个数的信息量。也就是

而这个信息量等于

后者正好是两个十进制字符的组合,也就是第二种表达方式。
尽管不同的编码方式所体现的信息量相同,但这里面仍然有一个编码有效性的问题。这就是著名的香农第一定律:
编码长度≥信息熵(信息量)/每个代码的信息量
如果我们把进制减小,就会增加编码长度,不利于使用。而理论上存在最优的编码方式,这个编码方式的存在性由香农给出了详细的数学证明,在这里不详细介绍。
网友评论