近年来的科学研究不断证实,不确定性才是客观世界的本质属性。不确定性的世界只能使用概率模型来描述,正是对概率的刻画促成了信息论的诞生。
人工智能数学模型的理论基础——信息论信息论使用“信息熵”的概念,对单个信源的信息量和通信中传递信息的数量与效率等问题做出了解释,并在世界的不确定性和信息的可测量性之间搭建起一座桥梁。
在生活中,信息的载体是消息,而不同的消息带来的信息即使在直观感觉上也是不尽相同的。比如,“中国男子足球队获得世界杯冠军”的信息显然要比“中国男子乒乓球队获得世界杯冠军”的信息要大得多。
如果国足闯进世界杯决赛圈,1:1000 的夺冠赔率是个很乐观的估计,用这个赔率计算出的信息量约为 10 比特;而国乒夺冠的赔率不妨设为 1:2,即使在这样高的赔率下,事件的信息量也只有 1 比特。两者之间的差距正是其可能性相差悬殊的体现。
条件熵的意义在于先按照变量 XX 的取值对变量 YY 进行了一次分类,对每个分出来的类别计算其单独的信息熵,再将每个类的信息熵按照 XX 的分布计算其数学期望。
以上课为例,学生在教室中可以任意选择座位,那么可能出现的座位分布会很多,其信源熵也就较大。如果对座位的选择添加一个限制条件,比如男生坐左边而女生坐右边,虽然左边的座位分布和右边的座位分布依然是随机的,但相对于未加限制时的情形就会简单很多。这就是分类带来的不确定性的下降。
定义了条件信息熵后,就可以进一步得到互信息的概念。互信息等于 YY 的信源熵减去已知 XX 时 YY 的条件熵,即由 XX 提供的关于 YY 的不确定性的消除,也可以看成是 XX 给 YY 带来的信息增益。互信息这个名称在通信领域经常使用,信息增益则在机器学习领域中经常使用,两者的本质是一样的。
除了以上定义之外,信息论中还有一个重要定理,叫作“最大熵原理”。最大熵原理是确定随机变量统计特性时力图最符合客观情况的一种准则。对于一个未知的概率分布,最坏的情况就是它以等可能性取到每个可能的取值。这个时候的概率分布最均匀,也就是随机变量的随机程度最高,对它进行预测也就最困难。
从这个角度看,最大熵原理的本质在于在推断未知分布时不引入任何多余的约束和假设,因而可以得到最不确定的结果,预测的风险也就最小。投资理财中的名言“不要把所有鸡蛋放在同一个篮子里”,就可以视为最大熵原理的一个实际应用。
网友评论