本书号称是史上最烧脑的经济学读物,它以数据为线索,透过纷繁复杂的表象,揭示世界运行的真相。有人说,读这套书就好像是在读侦探小说,读的时候不敢大喘气,生怕把书中的那股灵气给吹跑了。本书也是史上最畅销的经济学读物之一,风靡全球几十个国家,销量达数百万册。核心内容一、如何通过数据分析来发现隐蔽的欺诈和作弊行为? 二、如何通过数据分析来找出事物之间的因果关系?
《魔鬼经济学》号称是史上最烧脑的经济学读物。有人说,读这套书就好像是在读侦探小说,读的时候不敢大喘气,生怕把书中的那股灵气给吹跑了。你肯定很好奇,一套讲经济学的书能有这么神?这就要说到这套书的第一作者,史蒂芬·列维特。列维特是美国经济学界冉冉升起的学术明星,在哈佛读的本科、麻省理工读的博士,毕业后到大名鼎鼎的芝加哥大学经济系任教,仅仅两年就被聘为终身教授,是不折不扣的学界大牛。
不过奇怪的是,列维特自称对数学不在行,对计量经济学也不怎么了解,而且对股票、货币、财政、税收等等这些传统的经济问题通通不感兴趣。那他对什么感兴趣呢?可以用三个字概括,就是“抓坏人”,这里的“抓坏人”是加引号的。列维特就好像一个身怀绝技的侦探,能从事件的蛛丝马迹中发现隐蔽的作弊、腐败、欺诈等行为。只不过他用的工具和福尔摩斯不同,不是放大镜和显微镜,而是数据分析。也就是利用统计数据,精心设计算法,找出数据中的反常之处,这就是坏人在数据上留下的“指纹”。
列维特的这套方法厉害到什么程度?当年小布什在竞选总统时,就拉拢他做自己执政班子里的犯罪专家,连美国中央情报局都要向他请教,如何通过数据分析来找出洗钱者和恐怖分子。当然,除了抓坏人,数据分析还可以告诉我们很多别的东西,比如看似不相干的事物之间存在的隐秘联系,这也是这套书探讨的一个重要话题。具体来说,这套书的前两本讲述了以数据分析的“魔鬼视角”来看问题的具体案例,第三本揭示了这背后的“魔鬼式思维方式”,第四本是作者的博客文集,讲的是魔鬼式思维在生活中的应用。
好了,上面就是这套书的基本情况。接下来,我会分4期音频来具体讲解书中的内容。本期音频主要讲两个问题:第一,如何通过数据分析来发现隐蔽的欺诈和作弊行为?第二,如何通过数据分析来找出事物之间的因果关系?
第一部分
下面我们就先来说第一点,如何通过数据分析来发现隐蔽的欺诈和作弊行为。
列维特曾经潜心研究这样一个问题:专家会不会利用自己的信息优势,以损害客户利益为代价来谋取私利?这里的专家,是指在某一领域内拥有信息优势的人。如果你要买卖房子,房地产中介就是专家;如果你生病了去医院,医生就是专家。以卖房子来说,我们普通人一辈子卖不了几次房子,但交易金额却很可能是这辈子经手过的最大的一笔买卖,我们很害怕在这个过程中出什么篓子,这时候就不得不求助房产中介了。
问题是,房产中介会尽最大努力帮我们卖出最高的价格吗?按道理来说会,因为中介是按房子售价的一定比例来收取佣金的,在美国这个比例一般是6%,算是相当高了。但这6%的佣金里面,中介公司会拿走一半,剩下的一半由买卖双方中介人员平分。也就是说,帮你卖房的中介人员,拿到的佣金只有房屋总价的1.5%。如果房价是30万美元,那他能拿到4500美元。
那么,你的中介人员会不会因为想多拿佣金,想方设法帮你卖出更高的价格呢?我们来算算,如果你的房子多卖出1万美元,你的中介可以多拿多少钱?1万乘以1.5%,只有区区150美元。很显然,他不会为了这点小钱而劳神费力。相反,他很可能会想方设法让你降价1万美元来卖房。这样可以大大缩短成交时间,他可以把精力节省下来投入到下一单买卖。
当然,这只是逻辑推理,有证据可以证明这一点吗?列维特表示,证据确凿。而且这证据也不难查找,都是网上公开的数据,也就是中介人员在卖出自己名下房产时的销售数据和市场平均销售数据。列维特在分析了美国芝加哥市多达10万笔房屋交易数据以后,发现了这样一个规律:中介人员在出售自己的房产时,挂牌出售的平均时间要多出10天,而售价则高出3%。也就是说,一套价值30万美元的房子,如果是中介人员自己的房产,那他一定会耐心地等候最高报价,将它卖到31万以上;而如果他只是在帮你卖房,那他一定会尽力劝说你降价出手,尽快成交。
至于劝说的方式,最常用的手法之一就是吓唬你。这里的吓唬当然不是指他会直接威胁你,而是说,他会装作不经意地告诉你,同一个小区和你一样的房型、装修比你还好的房子,挂出的价格比你的心理价位还低几万,但卖了6个月没卖出去。这时候你肯定有些慌神,中介再不慌不忙给你补上一刀:房价马上就会大跌,现在不赶紧脱手,绝对砸在手里,到时候后悔都来不及。这样一来二去,你的心理防线说不定就崩溃了,立马降价出售,还对中介感恩戴德。
房产中介会为了自己的利益而欺诈客户,对这一点我们并不会太吃惊,毕竟房产中介并不是一个道德要求很高的职业。那么,像医生、教师这类自带道德光环的职业,会不会也存在着欺诈行为呢?对此,列维特同样给出了肯定的回答,不过他同时指出,要证明这一点往往比较难。
比如,他想知道,产科医生会不会为了多收取费用,而增加剖腹产的比例呢?最理想的情况,是拿产科医生群体自己的剖腹产比例,和社会平均剖腹产比例来做一个对比,就可以一目了然。但现实情况是,产科医生本人的医疗档案是保密的,你无法知道这个群体的剖腹产比例,也就无法直接对比。那怎么办呢?列维特还是设法找到了一个间接证明,那就是在生育率下降的地区,实施剖腹产手术的比例,要远高于生育率处于上升趋势的地区。这就很可能意味着,在生意不景气的时候,产科医生倾向于提高剖腹产的比例,以增加收入。
事实上不仅是医生,教师也会作弊。你可能会好奇,教师作弊的动机是什么呢?这就要说到美国中小学的教育改革。和中国的教育改革方向正好相反,中国的教改是给中小学生减负、批判应试教育,而美国中小学的教育改革恰恰是引入应试教育。比如列维特所在的芝加哥地区的公立学校,引入了高标准的成绩测验,测验分数过低的学校将被停课整顿甚至关闭,相关教师则会被调任甚至解聘。反之,如果测验成绩好,相关教师则会得到升职加薪,或者一笔高额奖金。这样教师就有了拉高学生成绩的直接动机。
当然,拉高学生成绩的手法多种多样,比如擅自延长考试时间,给学生暗示正确答案等等。这些方式比较隐蔽,很难在事后查出。但有些教师采用的方法简单粗暴得令人震惊,那就是,直接替学生改答案。美国学校的标准考试只有选择题,学生用 2B 铅笔将答案涂在答题卡上。这些作弊教师,就利用考试结束以后、将答题卡放入阅卷机之前的不到一个小时里,紧急帮学生擦掉错误答案、涂上正确答案。那么问题来了:如果你没有当场抓到这些作弊教师,仅凭事后的考试结果,如何能指认他们作弊呢?
列维特再次祭出他的数据分析神功,从总计30万份答卷、1亿道题目中,耐心地寻找蛛丝马迹。第一,他找出同一个考场出现连续相同答案的情况,进行详细分析。考虑到考试题目一般是从易到难,那么如果10名优等生在前面5道题全部答对,这不算疑点;但如果有10名学生在前面都没能连续答对5道题,最后5道题却全部答对,那就是重点怀疑对象。
第二,如果某个考场某次考试的平均成绩,比之前这些学生的平均成绩高出很多,并且下一次考试他们的成绩又大幅跌回了原来的水平,那么这个考场的嫌疑就最大。像这样的算法还有好几条,这里就不一一列举了,总之,列维特根据这些算法,认定有高达5%的教师、在200多场考试中存在作弊行为,并向芝加哥教育部门提交了他认为的作弊教师名单。
芝加哥教育部门也算雷厉风行,收到名单后,当即组织有作弊嫌疑的考场进行重考。为了慎重起见,还加入了一部分列维特认为没有作弊嫌疑的考场同时参加重考,作为对照组。结果显示,在所有重考的考场中,凡是被列维特指认有作弊嫌疑的考场,重考成绩都一落千丈。而没有作弊嫌疑,仅仅是作为对照组参考的考场,重考成绩与原来的成绩不相上下,甚至略有上升。列维特可真是一抓一个准儿。最后,负责这些考场的教师都收到了严重警告或者被开除,芝加哥公立教育系统的面貌焕然一新。
事实上,抓住教师作弊,这还不算是列维特最经典的一战。在他所揭发的作弊行为中,最令人吃惊的,是日本相扑比赛中的“假球”。我们知道,相扑在日本人心中是一项神圣的运动,被尊为“国技”。相扑比赛时,裁判的腰间都配有一把短刀,意思是如果我误判了,那我就切腹自尽,可见这项运动所标榜的纯洁性和公正性。谁要敢质疑这一点,立马就会触犯众怒。
那列维特怎么就和相扑运动杠上了呢?原来在2010年,有两名退役的日本相扑选手突然站出来,揭露了相扑界的大量黑幕,包括相扑手服用违禁药物、赌博、操纵比赛、介入黑帮等事实。他们正要召开新闻发布会做进一步的揭发,谁知两个人突然在同一天神秘死亡,而警方竟然没有立案调查,真相也随之被埋葬。这件事引起了列维特极大的好奇:相扑运动中到底有没有作弊行为?他决心从数据中寻找答案。
于是,列维特找到了1989~2000年这11年间,总计281名相扑选手的32000场比赛结果,进行仔细分析。他问了这样一个问题:如果相扑选手作弊的话,那么他最有可能在哪个场次作弊?这就要说到相扑选手的排名系统。相扑选手的排名对他们而言至关重要,排名前40位的选手年收入高达几十万美元,社会地位尊贵,而排名靠后的选手无论从收入还是社会地位来说都低得多。
日本相扑大会每年举办6届,每届比赛中每名选手要参加15场比赛。选手如果胜利8场以上,排名就会上升;反过来,如果输了8场以上,排名就会下降。这就意味着,在进行了14场比赛之后,对那些7胜7负的选手来说,最后一场比赛生死攸关;而对那些已经胜利了8场以上,尤其是8胜6负的选手来说,最后一场比赛则没那么重要,因为他们已经能够晋级,但又没有希望争夺冠军。也就是说,在最后一场的这两类选手之间,最有作弊的动机和可能。
果然,列维特发现了数据中的异常。根据历史交锋记录,7胜7负选手对阵8胜6负选手时,胜率不超过50%;而在最后一场比赛中,7胜7负选手的实际胜率竟然达到了惊人的80%。也许你会说,这最后一场比赛对7胜7负选手至关重要,他们奋力一搏,超水平发挥,也不是没有可能。但奇怪的是,同样是这两名选手,在下一次比赛中相遇时,7胜7负选手的胜率一下子跌回了40%;而再下次相遇时,胜率就回到了一开始的50%正常水平。
这意味着,这两名选手之间存在某种交易:这次你卖我个人情,下次比赛我还你,再下次比赛咱俩互不相欠。此外还有一个有意思的数据,就是一旦新闻媒体上出现了操纵比赛的报道,那么最后一场比赛中7胜7负选手的胜率又会回到正常的50%左右。你看,不管官方怎么宣传相扑运动的纯洁性,数据是不会说谎的,数据中清清楚楚地留下了作弊行为的“指纹”。
好了,以上就是为你讲述的第一个重点,通过数据分析来发现隐蔽的欺诈和作弊行为。列维特利用统计数据,精心设计算法,找出数据中的反常之处,这就是坏人在数据上留下的“指纹”。通过这种方法,他指出了房产中介利用信息优势谋取私利,芝加哥公立学校教师的考场作弊以及日本相扑运动中的腐败。
第二部分
通过上面的例子,你肯定已经体会到数据分析的强大之处了。其实,除了抓坏人,数据分析还有一个更大的用处,就是透过表象,找出导致某个现象的真正原因。这就是我们接下来要讲述的第二个重点。
有人说,人类大脑就像是一台解释机器,每当看到一个现象,就会不假思索地给对这个现象进行解释,硬加上一个貌似合理的原因。这可以说是人类的一种心理本能。但问题是,这些解释往往是想当然的,漏洞百出,没有事实依据。怎么样才能排除掉假想的因素,找出影响事件的真正原因呢?
比如有这样一种观点,认为民主选举中,竞选资金的多少直接决定了竞选结果。有数据表明,在竞选中花钱越多的候选人,胜出的可能性也越大。但列维特指出,这只是意味着竞选资金多和竞选获胜之间存在相关关系,而并不能证明具有因果关系。事实上,有可能是竞选资金多,所以才获胜。也有可能反过来,是本来就最有希望获胜的候选人,获得了最多的竞选资金,因为选民不太可能把钱捐给看起来不可能赢的候选人。当然还有一种可能,就是别的原因同时导致了竞选资金多和竞选获胜这两个结果。
列维特认为,确实是别的原因导致了这两者的同时出现,这个原因就是候选人的个人魅力。个人魅力强的候选人,胜出的几率本来就大,而选民也更愿意给他捐款,让他的竞选资金更为充裕,也更有实力花钱。也就是说,个人魅力才是决定一个候选人能否获胜的根本因素,而不在于竞选资金的多少。
列维特是如何证明这一点的呢?最理想的办法,是保持候选人之间相对魅力值不变,然后改变他们的竞选资金,看看竞选资金的变化是否真正影响了选情。这个办法实际上就是科学家们在实验室采用的“单一变量原则”。也就是控制其他因素不变,只改变其中一个因素,然后观察这个因素对实验结果的影响。
这种方法虽然客观,但是研究社会问题时却往往用不上,我们很难控制其他因素不变,去单独分析一个因素。除非是,由于偶然,历史出现了某种重复性,正好在其他因素大致不变的情况下,只有某个单独的因素变化了,这时候,就可以看出这个因素是不是真的影响了结果。
列维特就是利用了这种历史机遇。他发现,从1972年以来,美国国会竞选中出现了上千次这样的情况:两位候选人在短短几年内多次对垒。由于时间间隔较短,又是相同的两位候选人,可以假定他们之间的相对魅力值变化不大,而他们每次的竞选支出都不一样。数据显示,在这种情况下,候选人的竞选支出对选举结果根本没有影响。有魅力的候选人即使开支减半,也只会丢掉1%的选票;而反过来,魅力不足的候选人即使开支翻倍,也最多只能涨1%的选票。
你看,只要找到了正确的观测角度,就很容易排除那些似是而非的结论。当然,在选举这个例子中,只涉及了两个因素,相对比较容易分析。下面我们来看一个更具挑战性的案例,涉及到多个因素的综合影响。
事情是这样的。在20世纪80年代,美国社会的犯罪率居高不下,而且还有节节攀升的态势。当时,犯罪专家们断言未来的形势将会更加严峻,暴力犯罪会越来越猖獗,引发了全社会的极大担忧。然而,谁也没有想到的是,进入20世纪90年代,犯罪率在全美范围内开始莫名其妙地快速下降。之前做出了错误预言的专家们,这时候又赶紧站出来,宣称自己找到了犯罪率下降的原因。
有人说是因为经济繁荣,有人说是因为人口老龄化,有人说是因为死刑执行率和蹲监狱人数的上升,有的说是因为警力的扩充……那么,在这一堆看似都有道理的原因中,到底哪些是与犯罪率下降根本不相关的因素,哪些是有次要影响的因素,而哪个才是最关键的因素?
先来看经济繁荣。经济繁荣了,大家日子好过了,犯罪率也就下降了,很有道理对吧?但是回顾20世纪60年代,当时美国经济呈现了井喷式增长,而暴力犯罪率也随之暴涨。经济繁荣这个因素可以排除。
再来看人口老龄化。人的年纪越老,实施暴力犯罪的可能性就越低。听起来也有道理。但是,美国从1950年代左右就进入了老龄化社会,老年人口的比例在几十年中是缓慢提高的,并没有突然增加。而90年代的犯罪率是突然下降的,这显然和人口老龄化没有关系。
再来看死刑执行率和蹲监狱人数的上升。死刑执行率上升,会对罪犯形成心理威慑,从而降低犯罪率,这种说法对吗?在美国,基本上只有杀人犯才会被判死刑,死刑执行率上升对其他类型的暴力犯罪,比如抢劫、强奸等等几乎没有影响,没法解释其他类型暴力犯罪也迅速减少。倒是蹲监狱人数的上升,也就是把更多危险犯人关进监狱,有助于犯罪率的下降。据列维特估算,90年代犯罪率的下降,有1/3的功劳可以归于入狱率上升。
那剩下的2/3是什么?是警力的扩充吗?有数据可以说明。每次市政府选举之前,参选的在任市长往往会临时扩充警力,以拉拢重视治安的选民。这时候可以看出,扩充警力对降低犯罪率的确有影响,但影响幅度没有那么大。据列维特估算,90年代犯罪率的下降有10%的功劳可以归于警力扩充。
你看,专家们认为的90年代犯罪率下降的原因,一个个都被列维特排除了。经济繁荣、人口老龄化和死刑执行率上升,是不相关因素;蹲监狱人数上升和警力扩充,是次要因素。那么,最关键和最根本的因素是什么?这个原因没有任何一个专家提到过,而列维特一提出来,就引起了轩然大波。
他认为,真正的原因要追溯到1970年代的一个著名法律判例“罗诉韦德案”。当时,堕胎在美国是非法的,而一名叫“罗”的未婚先孕女性打官司要求获得堕胎权。官司一直打到美国最高法院,最后,最高法院判定罗胜诉,在全美范围内推行堕胎合法化。在这个案子宣判后一年之内,就有75万名美国女性选择了堕胎手术。
那么,70年代的堕胎合法化,又和90年代的犯罪率下降有什么关系?我们先来想想,什么样的母亲最有可能选择堕胎呢?就是那些生活贫困、受教育程度不高、未婚先孕、甚至是未成年就怀孕的女性。她们的孩子一生下来就面临贫困和单亲的环境,成年后犯罪的可能性很高。而列维特的结论就是,70年代的堕胎合法化,让很可能成为罪犯的那一波孩子没能生下来,于是,在本来该他们“大展拳脚”的90年代,犯罪率实现了断崖式下跌。
可以想见,在一向强调“政治正确”的美国,列维特这个观点一抛出来就引发了极大争议。很多人质疑:你怎么证明这个观点?堕胎合法化和犯罪率下降可能只是具有相关关系,而不是因果关系。面对质疑,列维特拿了具体数据说话。
首先,在“罗诉韦德案”之前,美国已经有5个州率先实行了堕胎合法化。这5个州犯罪率下降的时间点要明显早于其他州,犯罪率下降的幅度也大于其他州。其次,在美国全境实行堕胎合法化之后,各州的实际堕胎率是不同的。数据显示,在70年代堕胎率越高的州,在90年代犯罪率下降的幅度也就越大。最后,90年代犯罪率的下降,很大程度上归功于20多岁年轻罪犯的锐减,而其他年龄段的罪犯并没有明显减少。这几点加起来,很好地证明了70年代的堕胎合法化,才是90年代犯罪率下降的直接原因。
好了,以上就是为你讲述的第二个重点,通过数据分析来找出事物之间的因果关系。社会问题错综复杂,很多因素之间只具有表面的相关关系,而不是真正的因果关系。列维特通过两个案例,一是分析主导选举的因素,二是寻找犯罪率下降的原因,展示了如何通过缜密的数据分析来挖掘事件背后的真正原因。
总结
这期内容就讲到这儿,下面来简单总结一下数据分析的神奇之处。
第一,通过数据分析来发现隐蔽的欺诈和作弊行为。列维特利用统计数据,精心设计算法,找出数据中的反常之处,这就是坏人在数据上留下的“指纹”。通过这种方法,他指出了房产中介利用信息优势谋取私利,芝加哥公立学校教师的考场作弊以及日本相扑运动中的腐败。
第二,通过数据分析来找出事物之间的因果关系。社会问题错综复杂,很多因素之间只具有表面的相关关系,而不是真正的因果关系。列维特通过两个案例,一是分析主导选举的因素,二是寻找犯罪率下降的原因,展示了如何通过缜密的数据分析来挖掘事件背后的原因。
网友评论