第一章:数据—人类建造文明的基石
现象、数据、信息和知识
数据是文明的基石,人类对它的认识也反映了文明的程度。
信息是关于世界、人和事的描述,它比数据更抽象。信息既可以是我们人类创造的,比如两个人的语音通话记录,也可以是天然存在的客观事实,比如地球的面积和质量。
数据和信息还是稍有不同,虽然它们最大的作用在于承载信息,但是并非所有的数据都承载了有意义的信息。
数据本身是人造物,因此他们可以被随意制造,甚至可以被伪造。
数据中隐藏的信息和知识是客观存在的,但是只有具有相关领域专业知识的人才能将它们挖掘出来。
对数据和信息进行处理后,人类就可以获得知识,知识比信息更高一个层次,也更加抽象,它具有系统性地特征。
人类的进步就是靠使用知识不断地改变我们的生活和周围的世界。
数据的作用:文明的基石
使用数据的标准流程:
获取数据->分析数据->建立模型->预测未知
过去数据的作用往往被人们忽视,这里面有两个原因:
首先是由于过去数据量不足,积累大量的数据所需要的时间太长,以至于在较短的时间里它的作用不明显。
其次,数据和所想获得的信息之间的联系通常是间接的,它要通过不同数据之间的相关性才能体现出来。
相关性:使用数据的钥匙
数据之间常常有我们想象不到的关联性,利用这种关联性,不仅可以获得想要的信息,而且还可能得到意想不到的惊喜。
很多时候,我们无法直接获得信息(比如疫情传播情况),但是我们可以将相关联的信息(比如各地搜索情况)量化,然后通过数学模型,间接地得到索要的信息。
统计学:点石成金的魔棒
统计学,有时又被称为数理统计,是建立在概率论基础上,收集、处理和分析数据,找到数据内在的关联性和规律性的学科。
统计学中数据采集上的两个要点——量和质:
首先讲数据量的问题。要想取得准确的统计结果,统计首先要求数据量充足。
统计学除了要求数据量必须充足意外,还要求采样的数据具有代表性。
数学模型:数据驱动方法的基础
要建立数学模型就要解决两个问题,首先是采取什么样的模型,其次是模型的参数是多少。
模型的选择不是一件容易的事情,通常简单的模型未必和真实情况相匹配。因此,在过去们无论在理论上还是在工程上,大家都把主要的精力放在寻找模型上。
有了模型之后,第二步就是要找到模型的参数,以便让模型至少和以前观察到的数据相吻合。
在工程上,采用多而简单的模型常常比一个精确地模型成本更低,也被使用得更普遍。
数学模型上,其实只要数据量足够,就可以用若干个简单的模型取代一个复杂的模型。这个方法被称为数据驱动方法,因为它是先有大量的数据,而不是预设的模型,然后用很多简单的模型去契合数据(Fit Data)。虽然这种数据驱动方法在数据量不足时找到的一组模型可能和真实的模型存在一定的偏差,但是在误差允许的范围内,但从结果上看和真实的模型是等效的。
数据驱动方法要想成功,除了数据量大以外,还要有一个前提,那就是样本必须非常具有代表性,这在任何统计学教科书里就是一句话,但是在现实生活中要做到是非常困难的,这在大数据出现之前,其实都没有做得很好。
当我们对一个问题暂时不能使用简单而准确的方法解决时,我们可以根据以往的历史数据,构造很多近似的模型来逼近真实情况,这实际上是用计算量和数据量来换取研究的时间。
数据驱动方法的最大优势在于,它可以在最大程度上得益于计算机技术的进步。
数据驱动方法是大数据的基础,也是智能革命的核心,更重要的是,它带来一种新的思维方式。
网友评论