打开头条和抖音,你会看到你感兴趣的内容;打开淘宝和京东,你经常买的东西就会映入眼帘;甚至你只是在搜索引擎搜过几个关键词,在你浏览各种网站的时候,相关的信息也会铺天盖地向你涌来——很显然,我们已经进入了一个时刻被人“惦记”的时代。
这背后到底发生了什么呢?我们的社会又是为什么会变成现在这个样子的呢?
如果你也是和数据打交道的人,你可能知道,在这些应用的背后,大数据技术和人工智能技术正在主导着一切。但对于对这些一无所知的人们,我们怎么向他们解释这背后发生了什么呢?耶鲁大学的伊恩·艾瑞斯教授从科普和兼顾专业的角度编写了这本《魔鬼统计学》。
伊恩·艾瑞斯教授本身是计量经济学家,也是耶鲁大学法学院和管理学院的教授,同时也是《纽约时报》“魔鬼经济学”博客的专栏作家,可以说是相当专业的从业人士。他在推动数据分析的应用方面进行了很多的实践,并取得了很多显著的成果,也是最合适为大众进行相关知识科普的专家。
这本《魔鬼经济学》在内容组织上分为8章,在标题上相对来说对大众比较友好,不过从我的角度来看,我更愿意把它划分为三个部分(加上前言部分可以算四部分):
前言部分,作者通过两个典型案例给我们介绍了超级数据分析的神奇效果,其中之一就是一个完全不懂红酒的数字从业者,通过观察数据,总结出一套“红酒公式”,竟然获得了比专业的“葡萄酒评论家”更加准确的预测结果,成功地在“葡萄酒评论家”们的饭碗里敲出了响声(差点把饭碗砸了)。
在另一个案例中,棒球界的球探们也遭遇了从业以来最大的挑战,在他们眼里的“外行人士”——比尔·詹姆斯也用一个公式成功地把他们常年积累的经验和直觉无情地踩在脚下,并从中创立了“赛伯计量学”。
当然,我们也亲眼见识过类似的事情,2018年举世瞩目的“人机大战”中,AlphaGo(谐音“阿尔法狗”)轻取“围棋第一人”柯洁,并成功地让围棋界认识到,在机器面前,人类在围棋这项比赛中完全没有胜算。
在我们接受了这样的事实之后,就可以来看看本书的正文了。
正文的第一部分是前两章《谁在替你思考》和《反直觉:随机化与最优解》,讲的是超级数据分析的两大基础,回归方程和随机化试验。
第一部分的主要内容如下图所示:
在第一章《谁在替你思考》中,本文开头的问题基本上已经可以得到答案了,铺天盖地向你推送信息、投放广告的“罪魁祸首”就是“推荐系统”。
但是只知道一个名字并没有什么用,书中通俗地给我们解释了“推荐系统”背后的工作原理——通过“回归方程”将很多人的行为数据作为样本,形成一种类似于“群体智慧”的模型,并据此来预判你的行为。它基于这样一个前提——和你类似的人通常可以准确地猜出你的喜好(看样子“知己”确实是存在的)。
在这个基础上,网飞可以准确预测你喜欢的电影,并把少人问津的优质类似剧目推送到你的列表中;eHarmony可以为你匹配“灵魂伴侣”;赌场甚至能够准确预测赌徒的“痛点”,并及时给予“安抚”。
而使得这种预测能够准确的原因就是“随机化试验”,因为样本的随机性,导致结果具有了很好的普适性。
在书中提供了大量的案例和说明,有兴趣的读者可以自行阅览。
在了解了问题的原因以及背后的基础之后,作者在第二部分给我们展示了超级数据分析的应用现状——超级数据分析无所不在。
优质的超级数据分析已经为我们的社会带来了很大的影响:政府通过数据分析能够更好地施行政策,使得投入的款项能够取得更好地效果;基于数据分析的“循证医学”已经拯救了数以百万计的病人,在此基础上出现的“诊断决策支持”软件“伊莎贝尔”更是颠覆了传统的医学诊断。
甚至是在几乎所有的行业中,基于数据分析的决策效果都要优于“专家判断”。部分的原因是机器是理性无偏见的,而专家的偏见会影响判断;还有部分的原因是,机器所拥有的信息量远远大于专家,计算速度也是人所望尘莫及的。
本书的第三部分更是为我们指出了未来的方向,由于技术的进步,我们的世界正在加速数字化的进程中,虽然全面数字化存在一定的问题,但是历史的趋势已经无法更改。
在教育行业、电影业、商业等行业中,我们都看到了数据分析系统对人类的压倒性优势,但这也并不是说人类已经沦为了历史的看客,专家的经验可以在前期数据的筛选中,以及预测的内容和方向上提供必要的指导意见,从而提高系统分析的准确性——毕竟,机器自己不知道应该用什么数据去分析什么。
最后,作者可谓苦口婆心地劝我们,应该积极地“拥抱变化”,人类社会的未来属于懂得数据分析的“统计学家”,在这个趋势之下,“鸵鸟政策”没有任何作用。
而且了解统计学的基本概念也没有那么复杂,甚至是作者8岁的女儿都能够学到其中的妙处。
未来已来——历史的车轮滚滚向前,时代已经在高速变化,如果不能了解变化的原因,准确坐上这辆飞驰的列车,结果很可能会被它远远甩在身后,甚至被历史所淘汰。
企业和商家已经在数据分析上面投入了大量的资源,如果我们不了解其中的奥秘,很可能就被它们牵着鼻子走而不自知。“知己知彼”之后,即使我们无法获胜,至少还能了解到这么一个事实:“当公司对质量进行超级数据分析时,他们往往会帮助消费者。当公司对价格进行超级数据分析时,我们应该捂紧钱包。”
网友评论