2000年2月27日,谷歌山景城园区又开启了平常的一天。
阳光普照,自行车爱好者相约骑行,按摩师做着推拿,公司员工享用着黄瓜汁。
在这个稀松平常的日子里,几位谷歌工程师有了一个想法,解开了如今驱动互联网运作的秘密,他们找到了让你点击访问、再访问、最终停留在网页上的最佳方法。
在讲述他们当日的工作之前,我们需要讨论一下相关性与因果关系,这是数据分析中的重大问题。
如何能更准确地建立因果关系?其黄金标准是一个随机的对照试验,试验是:将人们随机分为两组,其中一组为试验组,要按照要求做某件事,另一组为对照组,不做这件事。然后你会看到两组的不同回应,结果的差异就是我们要找的因果效应。
随机对照实验越来越多地被应用于社会科学领域。随机试验是证明因果挂你的黄金标准。
那一天谷歌的几位工程师决定在网站上进行试验。他们将用户随机分成两组,试验组的搜索结果页面中显示了20各链接,对照组的页面和以往一样显示了10各链接。然后几位工程师根据用户再次访问谷歌的频率,比较了两组用户的满意度。
关键在于数字世界中的试验相较于线下世界中的试验具有巨大的优势,线上同样有说服力,在迪佛洛的研究中,需要练习学校、安排资金、支付部分老师工资,所有的学生都必须接受测试。线下的试验可能要花费数千或数十万美元的资金和数月数年来进行。
在数字世界中,随机试验成本低、速度快。不需要招募参与者并支付其费用,仅需便携一行代码将其随机分入一组,不需要用户填写调查,仅需测量鼠标移动和点击的数量,不需要手动编码和分析答复,仅需建立一个程序来自动为你完成所有事项,不必练习任何人,不必告诉用户这是一项试验。
这是大数据的四大功能,随机便捷,何时何地只要在线,就能找到真正的因果效应。大数据时代的世界,就是一个实验室。
网友评论