吴军老师在发刊词中讲“信息时代的最大特征是不确定性”。这里的不确定,有的来源于对客观事物的未知;有的来源于信息编码和传输中的错误和噪音;有的来源于不怀好意的人刻意的欺骗。而信息时代发展到今天,更有的来源于信息的爆炸和人们处理信息能力的局限。而吴军老师将本节复盘的内容直接命名为《如何识别误导人的错误信息?》则是直击信息产生的本质:
——去伪存真,还原世界的本来面目。
基于信息产生的本来目的,以及在信息产生过程中的采集、处理、分析和运用等一系列环节,吴军老师通过本模块15节,近半个月时间的抽丝剥茧,以信息产生和相互作用的流程为纲,以对信息产生中各类特性的分析和干扰因素的处理为目,在方法论的层面为我们展现了一个既有宏观系统性认知,又有微观具体处理方法的复杂交错的理论知识体系。
通过对本模块内容的学习,第一是使我认识到信息产生的核心是对信息的量化度量和编码,前者使我们具有了信息量的概念,后者让我们真正迈入了信息论学习的门槛;第二是使我了解到在信息的相互印证和有效编码过程中,如何既能有效的利用和资源,又能确保信息处理中的可靠性;第三是使我清楚了信息采集、分辨、处理、融合等一系列方法,能够运用的矢量化描述、冗余度、等价性、信息压缩,以及增量信息等多种形式从各个角度,以各种形式描述、简化和表征信息;第四是使我在得到复杂信息时具有了分别能力,其中利用信息的正交性、互信息的相关度增加信息量,通过增加统计样本的数量以增加置信度,以及利用交叉熵的原理降低量化度量错误预测所要付出的成本都是现实可行的方法。
学习和掌握了一些信息论的概念和方法可以说在术的层面已初窥门径,吴军老师说第一模块是信息论里最难的,这一点我十分认同,即使对于学过信息相关知识的同学,一些理念理解上也存在很多局限。吴军老师在最后复盘中从问题出发,讲到了可能误导人们接受和处理信息的三个方面原因:
首先是刻意的迷惑和欺骗。解决策略是把问题放到更大的时空去考量,在不同的时空间去观察信息的一致性,并将一个小规模的信息放到大的背景下去分析,以检验信息的失真率。
其次是信息没有出处。解决策略就是溯源,方法有两个方面,一是沿着信息传播路径找到信息的出处,看看是否来自业内权威,是否可以验证,对于来源不太可靠的信息不信也罢;二是看看信息相关领域的权威对它的看法和反应,这也可以从另一个方面印证此条信息的大致的可靠程度。
再次是有无断章取义。解决策略是看看信息的上下文,因为信息本身就不是一个一成不变的结果,由于信息产生的时间、空间,以及考虑的要素、维度的不同,其表征和造成的结果也千差万别,特定的信息要放到特定的历史时空中,相对于特定的人群才有意义。
当然研究信息的产生,其重点也不仅仅局限在对问题的处理,更多的还是对信息产生整体的把握,在这一点上吴军老师为我们总结了5条原则:
1.最好、最重要的资源要用于那些出现最频繁的事情,这样分配资源最有效,其背后的原理是香农第一定律和霍夫曼编码。
2.不要将相关性当成因果关系。弱相关性对我们做事情没什么帮助,而对于强相关性,要搞清楚谁可能是因,谁可能是果,切忌因果倒置。
3.我们很多时候,要直接获得某种信息是很困难的,因此可以通过获得等价信息,得到同样的效果。
4.我们日常遇到的大部分事情,都是渐变的,因此通过增量改进,要比推倒重来效率高,这就如同对增量压缩,可以比静态压缩高很多一样。
5.由于我们遇到的信息很多,一个比较高效率表示信息的方法是矢量化,也就是将很多维度的信息映射到我们关心的几个维度。我们用到的例子是:文字的演变就是矢量化的结果。
总之“信息论“作为数学在信息科学领域的一个重要应用,在其诞生伊始就是出了名的难懂,对于我们这些吃瓜的群众,感觉更多的是似曾相识的朦胧。今天我们得到机会跟随吴军老师系统学习信息论知识,必须对得起老师如此大的心血,将复杂的信息论知识理清、揉碎,反复吸收,并以此作为进一步深入研究“信息论“的契机,广泛传播和推广吴军老师的方法论与科学研究的理念,做一个对社会和时代有贡献的人。
感谢老师教诲!
网友评论