美文网首页
大数据时代

大数据时代

作者: Aaron51k | 来源:发表于2017-10-01 16:53 被阅读7次

    通过给我们找到一个现象的良好的关联物,相关关系可以帮助我们捕捉现在和预测未来。如果A和B经常一起发生,我们只需要注意到B发生了,就可以预测A也发生了。这有助于我们捕捉可能和A一起发生的事情,即使我们不能直接测量或观察到A。更重要的是,它还可以帮助我们预测未来可能发生什么。

    当数据点以数量级方式增长的时候,我们会观察到许多似是而非的相关关系。毕竟我们还处于考察相关关系的初期,所以这一点需要我们高度重视。

    不像因果关系,证明相关关系的实验耗资少,费时也少。与之相比,分析相关关系,我们既有数学方法,也有统计学方法,同时,数字工具也能帮我们准确地找出相关关系。

    相关关系很有用,不仅仅是因为它能为我们提供新的视角,而且提供的视角都很清晰。而我们一旦把因果关系考虑进来,这些视角就有可能被蒙蔽掉。

    例如,Kaggle,一家为所有人提供数据挖掘竞赛平台的公司,举办了关于二手车的质量竞赛。二手车经销商将二手车数据提供给参加比赛的统计学家,统计学家们用这些数据建立一个算法系统来预测经销商拍卖的哪些车有可能出现质量问题。相关关系分析表明,橙色的车有质量问题的可能性只有其他车的一半。

    当我们读到这里的时候,不禁也会思考其中的原因。难道是因为橙色车的车主更爱车,所以车被保护得更好吗?或是这种颜色的车子在制造方面更精良些吗?还是因为橙色的车更显眼、出车祸的概率更小,所以转手的时候,各方面的性能保持得更好?

    马上,我们就陷入了各种各样谜一样的假设中。若要找出相关关系,我们可以用数学方法,但如果是因果关系的话,这却是行不通的。所以,我们没必要一定要找出相关关系背后的原因,当我们知道了“是什么”的时候,“为什么”其实没那么重要了,否则就会催生一些滑稽的想法。比方说上面提到的例子里,我们是不是应该建议车主把车漆成橙色呢?毕竟,这样就说明车子的质量更过硬啊!

    考虑到这些,如果把以确凿数据为基础的相关关系和通过快速思维构想出的因果关系相比的话,前者就更具有说服力。但在越来越多的情况下,快速清晰的相关关系分析甚至比慢速的因果分析更有用和更有效。慢速的因果分析集中体现为通过严格控制的实验来验证的因果关系,而这必然是非常耗时耗力的。

    在大多数情况下,一旦我们完成了对大数据的相关关系分析,而又不再满足于仅仅知道“是什么”时,我们就会继续向更深层次研究因果关系,找出背后的“为什么”。

    相关文章

      网友评论

          本文标题:大数据时代

          本文链接:https://www.haomeiwen.com/subject/khdaextx.html