前不久,吴军老师在得到的《信息论40讲》更新完毕了。虽然我之前学习过信息论,但是完整听完吴军老师的课程还是感觉有很多东西没有掌握好。因此我一边重听整个课程,一边开始看吴军老师之前写的《智能时代》。这样双管齐下,终于理解了很多之前没有真正听懂的内容。比如对于大数据思维的理解。
吴军老师的信息论课程中虽然有几讲谈到了大数据思维及其本质,但是这些介绍比较零散,因此整个课程听完我对于大数据思维还是没有什么体感。真正感觉自己理解了吴军老师所讲的内容是在看了《智能时代》第三章“思维的革命”之后。《智能时代》一书在介绍大数据思维的本质之前,先花了一章的内容介绍数据的重要性,然后花了一章的内容介绍利用大数据,将智能问题变为数据问题能带来的巨大革命。而在介绍大数据思维之前吴军老师还介绍了机械思维,因为大数据思维是机械思维之后一种全新的思维方式,是对机械思维的补充。
从欧几里得到托勒密,再到牛顿,他们的思想方法一脉相承又不断发展,这些思想方法最终被人们总结为机械思维。机械思维的核心思想可以概括为:世界变化的规律是确定的,因此这些规律不仅可以被认识的,而且可以用简单的公式或简洁的语言描述清楚,此外,这些规律应该具有普适性。从中我们可以总结出机械思维的两个特点是确定性和因果关系。
机械思维在过去的三百多年里被广泛应用,并直接导致了人类有史以来最伟大的事件——工业革命。但是到了20世纪,人类逐渐意识到机械思维的局限性。因为人们逐渐认识到并非所有的规律都可以用简单的原理描述清楚,而且像过去那样找到因果关系变得越来越难。最重要的是,经过20世纪初的物理学危机,以及后来以爱因斯坦与波尔为代表的物理学家们的论战,人类认识到不确定性是世界固有的属性。比如说,量子力学中的测不准原理,说的是像电子这样的基本粒子的位置和速度(也可以是动量)的测量误差的乘积不可能无限小。也就是说我们无法同时准确得知一个基本粒子的位置和速度,因为我们的观测本身就会影响到它们的状态。
了解了世界本身就具有不确定性之后,人们就会想要消除或减小这些不确定性,而这需要使用信息论了。香农博士于1948年创立的信息论将信息与不确定性关联了起来,这给人们提供了一种全新的看待世界和处理问题的思路。这也使得信息论成为信息时代的基本方法论。
香农博士的伟大贡献之一是他第一次给出了对信息进行量化度量的方法。他借用热力学中熵的概念,提出了信息熵,用于表明一个信息源中所包含的不确定性,而为了消除这些不确定性,我们就需要使用信息。也就是说,信息的作用是消除不确定性,信息量与不确定性的大小有关,不确定性越大,需要的信息量越大。除了用信息熵来度量不确定性外,信息论中还有另外一个重要概念——互信息,它用于对信息之间的相关性的量化度量。大数据思维的重要基础之一就是相关性。
从机械思维到大数据思维,就是从确定性和因果关系到不确定性和相关性的转变。而信息论则是大数据思维的基础方法论。我们利用大数据中蕴含的信息来消除世界的不确定性,并利用多维度数据的相关性对无法直接获得因果关系的情况进行分析。因此,大数据思维的本质就是利用信息来消除不确定性。大数据思维是对机械思维的发展和补充,而不是对它的颠覆,对于能够获得确定性和因果关系的情况,机械思维仍然是最好的思维方式。
网友评论