刚开始做数学模型的时候,我对数据这东西的迷恋程度不亚于那些求神问卦的。一张EXCEL表格上,少则几万,多则百万的数据,全是由那些最基本的数字1—0构成,密密麻麻的堆在那里。那么一筛选,一拟合,就得出了对于未来的推测。
这不是算命,又是什么?
有了计算机后,更是让数据大显身手。机器的好处就是你给它发个指令,哪怕是死循环的句柄,它也会孜孜不倦地算下去,直到得出结果,或者内存耗尽而死机。这是从前算圆周率那帮数学家所不能想象的。
第一次做的模型,是关于农业保险的。听上去很高大上,其实不过是根据过去50年的气象数据推演未来一段时间的天气异常情况,再根据期望值反推赔率。那个数字的设定很微妙,既要让这保险公司不要特别赔钱,又能起到旱涝保收的效果。
建好模型,把算法输入进去,就是电脑的事儿了。这期间我总会坐那里发呆,想起我从前鄙视的天文学家第谷。从前我老觉得他一辈子算是废了,看星星记数据,这么机械的工作硬是搞了四十多年,也没个成果。最后那什么三大定律还是开普勒根据他的数据推出来的。
现在,我只想说,没第谷,就没有那后来的宇宙飞船上天。数据是个内敛的小姑娘,只有真正懂她的人才会知道它的温柔。
和数据打交道多少有点像做饭。炒菜之前要先摘掉那些没用的烂叶子,对付数据第一步当然也是筛选掉那些太离谱的。如果是个新手,他会觉得这事是最轻松的,直到他和数据打了多年交道,他才会发现,这一步很难。——你怎么知道,它的特别是因为失误,抑或反常必有妖?
然后就是选个趁手的家伙。如果是做模型,该想想用什么常规的算法,如果是单纯的风险分析,就是看碟子下菜了。数据长什么样,总有几种传统的分析方式去应对它。或横纵对比,或者求极差中间数等等。
最后就是表达,做出图表来给人家看,然后借着这图表来发表一番言论。当然,大多数时候是先表明态度,再做数据分析。我们只会看我们想看的景物,数据也是。结论在先,数据的出场不过是助威抑或助纣为虐——你放心好了,你的两只眼一定会死命盯着那些合适的数据,丢掉那些成为悖论的。这是人的通病。
有段时间我讨厌数据,就是因为通常情况下,人们是先做结论,再做分析,最后筛选数据。这样的过程,无异于强词夺理。
如果数据说谎,那一定是个弥天的可怕谎言。因为它言之凿凿地给你罗列枯燥的数据,如同一位侦探在用他的理性思维分析推理,你津津有味地听着,不停地点着头。殊不知他其实是在诡辩。人们有种错觉,他们觉得文艺的东西是梦幻的,所以处处可疑。数学科学这些东西却一定是真实的,因为它们有板上钉钉的证据。
数据和历史一样,不过是任人打扮的小姑娘。改改坐标轴,换换对比,删繁就简,正说反说都非常有理。
说到这里,诸位可以明了朋友圈里那些伪科学的由来了。什么不吃肉活千年啊,什么只吃肉不得癌症啊,无非是掐着数据的脖子,让它吐出了一面之词而已。不信你可以去看看,有几个这种所谓的营养学大师敢去把自己的原始数据露给公众看的?他们只会伪造结果,扭曲图表罢了。
数据在我的眼里就像天上的星辰。那些星星在几百万年前就死掉了,我们所看到的光不过是它们曾经的传说。星象学家们却固执地抓着那些轨迹不放,妄想去推断一个可能的未来。推断不是不可以,好好研究下去,宇宙洪荒的前世今生都能够为我们展现,只是他们的方向错了。
过于信赖某种东西,终究会归于迷信。数据可以某种意义上的预测未来,却不能保证所有。你没看到保险公司的条款吗?战争不赔,地震不赔。对于这种突发的事故,数据也只好束手无策。
数据是美的,在那些做模型的深夜。每当我觉得熬不下去,就会点开matlab,做一个多维度的图像出来。看着笛卡尔的爱情心脏线,想象他怎么借助这一张函数图赢得了公主的爱慕。一切处于中间地带的东西都有种微妙的美感,比如那些高阶函数图像,文理相通,天作之合。
那会儿的我梦想是嫁给一个物理学家,还得是研究量子力学的那种。想想两个人面对同一片星空,思维却在两个维度上,该多么有意思啊。
我现在手头也没什么物理学家,只有一堆分析不完的数据。虽然略微遗憾,但它也会给我惊喜。比如今天吧,都上了地铁了,我还在想,那个该死的英属维尔京群岛——你听听这名字,就知道这是个很小很小的国家,怎么会在半年之内进口突飞猛进。思前想后,我推断那是个错误数据,虽然不大可能。
回到家总觉得不对。最后索性去知网上搜这个地方。和我想的不大一样,那里最近没出煤矿,也没油田,它只是个优秀的避税天堂。优秀到成为国际黑帮洗钱的藏污纳垢之地。那论文还说,许多国内著名的公司为了合理避税,都在这里注册,这么一来,许多应该缴税的东西,突然在来料加工上占了大大的便宜。
数据是永远没有谜面的谜语,是汉武帝的李夫人。当返魂香燃起,你只会在帘子后看到她影影绰绰的一个倩影。于是你站在那里,迟疑了。那是真实的存在,还是一个梦呢?
所谓生活中的真相莫过如此。真真假假,也只是凭一个信字而已啊。
网友评论