原文http://www.36dsj.com/archives/15743
这篇文章讲述了随着数据量样本的扩大,我们先前所分析出来的常见的规律往往都失去了意义。文中列举了一个例子,随着数据量的扩大,原先不相关的特性也变得显著。也就是这些特征将使原先的统计学失去意义。当然,作者的想法还是基于原先的规律是有意义的,扩大样本以后得到的结论是无意义的。但是我想到的是到底哪一个才是有意义的结论,从微观的角度出发,年龄、文化程度、收入这三个变量对于网游的影响显著,但是扩大样本,进入到宏观的世界,独生子女和女性以及体制外等等这些变量也开始变得显著。那么从宏观的角度来进行分析,就没有意义吗?这些变量之外的深层次的原因是什么?或许放到宏观的世界里,应该用不同的标准来探索这些规律,如果采用相同的标准来探索,原本无厘头的因素也变成了有意义的成因。
大数据这不禁让我想起先前看过的一个小故事,就是一只猴子、一台打字机器,这只猴子不断的打字,总有一篇文章是可以与莎士比亚的作品《哈姆雷特》进行媲美的。虽然这个在现实中是无法实现的,但是在数学上是可以证明的。这样想来,只要样本量足够大,世间所有的美好终究会产生,这一切都是概率的事情。而人类只不过是依据自己的肉眼凡胎让这一切通过个人的领悟变得提早实现了而已。或许这就是人的意义吧,及早的发现美,而不是随着时间的洪流恣意的向前。
无限猴子定理
网友评论