如果我们把资本和机械动能作为大航海时代以来全球近代化的推动力的话,那么数据或许成为下一次革命和社会变革的核心动力。
数据的作用:文明的基石
我们的文明从一开始就伴随着对数据的使用,早在古埃及法老们开始修建金字塔之前几千年,闪米特人就在尼罗河畔辛勤耕耘了。人们选在在那里定居,除了温暖的气候外,最重要的原因是每年尼罗河都会发洪水,洪水退去后留下大片肥沃的土地供他们耕耘收获。为了准确预测洪水到来和退去的时间以及洪水的大小,但是的埃及人开始观察天象,并在观察数据的基础上开创了天文学。他们根据天狼星和太阳同时出现的位置来判断一年中耕种的时间,然后准确地判断洪水可能到达的边界和时间。古埃及人观察到一年不是365天而是多了一点,但是古埃及人历法上没有闰年,于是他们用了一个非常长的“季度”,倡导365*4+1天,因为每隔这么多天太阳和天狼星就一起升起。

人类文明过程其实伴随着如下的过程:
获取数据 ----> 分析数据 ----> 建立模型 ----> 预测未知
这个过程中,数据起到了基石的作用,好的模型要和数据相吻合,由此可见古埃及人已经有了从数据中总结数学模型的基本能力。
相关性:使用数据的钥匙
2009年在甲型H1N1禽流感病毒发现之前,Google 的搜索趋势产品并没有收到太多的关注,直到H1N1引起了全世界的恐慌,因为该病毒导致的疾病在短短的一个月内在全球寻书蔓延开来
过去预报疫情的传统方法是由各地医院,诊所和义务人员向美国疾病控制和预防中心CDC上报,但是这个方法的延时大约有10天到2周,而两周内疫情早已迅速扩散,因此公共卫生专家需要找到新的办法预测和监控疫情。庆幸的是CDC的科学家和Google的工程师从2007年到2008年一起合作研究了流行病和各地搜索量变化的关系,他们挑出了45个重要的检索词条训练了一个线性回归模型,成功预测了2008冬季流感的传播趋势和地点,发现准确率高达97%一行。
CDC2009年采用了同样的方法获得了更加有效,更加及时的数据。
很多时候我们无法直接获得信息,但是我们可以将相关联的信息量化,然后通过数学模型,间接地得到所要的信息。
数学模型:数据驱动方法的基础
数据有了,选择合适的模型与真实的情况匹配不是一件容易的事情,有了模型之后,需要找到模型的参数,以便与让模型和以前的数据吻合,今天它有了一个比较时髦的名次“机器学习”;从理论上讲,只要找到足够多具有代表性的样本,就可以运用数学找到一个或者一组模型的组合,使得它和真实情况非常接近。
回到数学模型上,其实只要数据量足够,就可以用若干简单的模型取代一个复杂的模型,这种方法被成为数据驱动方法,因为它先有大量的数据,而不是预设的模型,然后用很多简单的模型去契合数据。数据驱动的最大优势在于,可以最大成都上得益于计算机技术的进步。
计算机诞生,人类进入信息时代之后,数据的作用越来越明显;如果我们把资本和机械动作作为大航海时代以来全球近代化的推动力,那么数据将成为下一次技术革命和社会变革的核心动力。
网友评论