现在,智能的商业推荐算法层出不穷,就拿我们身边的例子来说阿里巴巴的购物推荐、抖音的视频推荐算法。但是,你真的相信这些智能算法知道你想看什么或者买什么吗?
你可能会说:“是的”,因为你真的对算法所推荐的东西很感兴趣。但是,真实的情况是这样吗?实际上,智能算法并不知道你为什么喜欢这些东西,它只是发现根据你的行为数据,你喜欢某件物品的相关性很高,它只是把相关性最高的那件物品推荐给你。这种“不知道为什么,只知道是什么”的解决办法人们以前很少去关注,但是它确实非常有效果。不知道你是否听说过啤酒与纸尿裤的故事,商家通过数据分析发现在世界杯期间,啤酒与纸尿裤的销量在同步上涨,因为在世界杯期间,男人一般会在家看球赛,这个时候有孩子的女人会抓住这个机会把孩子给爸爸照顾,爸爸们在买啤酒的时候买上几卷纸尿裤给自己的宝宝用。同样的,用数据分析方法也发现在飓风期间,蛋挞的销量会增加。因为无法出门的人们会用蛋挞作为自己的早餐。
那在这之前的小数据时代,人们是怎么预测事物的呢?人们会通过分析因果关系,严格的用实验证明某几件事情之间的关系。这种选择与小数据时代的技术限制有关,因为获取到的数据不多,通过实验来证明因果关系是一种更可行的办法。同时,这也与人的思维方式有关。人的思维分为快速的直觉和慢慢的思考,在人类社会的初级阶段,快速的直觉有助于人们提高生存的几率。有的时候,并不需要严格的证明两者之间有因果关系,你也可以做出决策。比如遇到危险的时候,快速的反应比慢慢的思考有用的多。
但是因果关系的证明是不容易的。选择用来证明因果关系的数据在选择的时候就是人为的,这就可能引入主观的判断。而且,当被证明的假设被发现是错误的,可能就需要重新开始实验。特别是因为有的证明根本无法进行,比如要证明被狗咬和得狂犬病之间的因果关系。难道真的能设置对照组来对比咬和没咬的区别吗?
在许多时候,发现因果关系也是没必要的,只要发现相关关系就足以应付情况。纽约的沙井盖爆炸问题一直困扰着电力公司,因为井盖爆炸危害太大,但是井盖数量太多,就要花费大量的成本去找出有问题的那些井盖。一家公司通过数据分析预测了井盖爆照的几率,通过他们的预测电力公司节省了大量的成本。但是,他们知道为什么吗?他们开始的时候也不知道,后来通过分析才发现与井盖下电缆的年限和故障率有关。但是这并不妨碍他们这套系统发挥作用。
大数据对相关关系的发现,也使人们发现了以前因为思维定势而忽略的许多关系。比如你绝对想不到橙色的汽车故障率会更小,如果让人们来找出为什么的话。人们可能想出各种各样的因果关系,但是很难发现这种由于思维定势思考不到的地方。
大数据并没有否定因果关系,相反、相关关系的发现反而降低了因果关系发现的成本。事实上,就是因为不受限于传统的思维模式和特定领域里隐含的固有偏见,大数据才能为我们提供如此更多新的深刻洞见。大数据时代将要释放出的巨大价值使得我们选择大数据的理念和方法不再是一种权衡,而是通往未来的必然改变。但是在我们到达目的地之前,我们有必要了解怎样才能到达。
网友评论