美文网首页
认知中的偏见(二)

认知中的偏见(二)

作者: 摸鱼哥 | 来源:发表于2018-10-27 13:11 被阅读78次

    文/Murph丶璇

    上篇文中我写到即便是最专业的学术论文也是有缺陷的。不过由于这个问题太重要,字数原因我们只能在这篇文章中来分析它。它之所以重要是因为我们平时所接触到的很多信息源 —— 不管是自媒体还是专业的精英媒体,不管是科普类书籍还是教科书,所有这些信息观点的基础几乎都会来源于论文。因为正是学术论文本身构成了人类知识的大厦,物理学,经济学,心理学,金融学等等,都是由一篇又一篇的学术论文/著作谱写而成的。可想而知如果论文本身是有问题的,那么不管我们选择多么精英的媒体,文章的作者多么的负责任,我们得到的结论也只能是错的。

    在读研究生时我学过一门课叫做 Research Method,这门课不是教我们如果用计量经济学模型去做研究的,那些东西在本科时都学过了,而是教我们以非常批判性的视角去审视论文的论证过程是否可信。在课程中我们需要靠自己找出一些论文中的错误。也就是在这堂课上,我学到了其实就算是非常著名的论文,那些由业内大神们写的论文,甚至是诺贝尔奖得主写的论文也很有可能是错的,或者至少是论证不充分的。所以在之前的文章中我跟大家说过,如果有什么知识我觉得特别重要的话,我一定会去阅读论文原文,看看原文的论证过程是否可信。

    好了,让我们开始讲故事。

    2011年,常青藤之一的美国名校康奈尔大学在最著名的心理学期刊上发表了一篇论文题目为 Feeling the Future,副标题是 “人们可以预见未来的证据”。在其中一个实验中,科学家在人们面前放两块布,布的后面是一台电脑。然后科学家让人们预测哪一块布后面的电脑屏幕上有图像(另一块后面则什么都没有)。当人们预测完之后,电脑程序会在两块布后面的屏幕上随机选择一个并呈现图像。

    那么大家觉得人们预测对的可能性是多少呢?50%,对吧?但是科学家竟然发现人们预测对的可能性是53%。你可能会问,53%而已,难道就不会是巧合吗?在科学研究中,我们通常会使用一个叫做p-value的东西来判断实验结果是不是巧合,而在社会科学(经济学,金融学,心理学,社会学等)的研究中,这个p-value通常是0.05。什么意思呢?就是说,如果这次实验的p-value小于0.05(或5%,越小越好),那么就说明我们做100次实验,只有5次机会出现这样的实验结果是因为巧合,而95次都不是巧合。而科学家得出53%这个数据的这次实验的p-value只有1%,于是这篇论文得以发表。一经发表立刻引起了轰动,文章的作者还被邀请去类似 CNBC 这样的媒体做了访谈演讲。是呀,康奈尔大学,顶级学术期刊,难道还会有错不成?

    我的天,对于 Murph 这样一个特别喜欢看论文的同学来说,第一次读到这个故事真是吓出一身冷汗。我当然不会相信人类竟然是可以预测未来的,那么这个故事就让我们必须去考虑一个问题 —— 那些发表在学术期刊上的论文,到底有多少的结论其实是错误的呢?我们可能会以为是5%,因为前面提到过,p-value小于5%,也就是说只有实验结果是巧合的可能性低于5%的情况下,论文才能被发表,但事实并不是这样。

    让我们设想在某个领域有1000个(例如人类是否能预见未来这样的)“假设” 正在被科学家们研究着,然后让我们设想其中的100个是正确的假设,其中的900个是错误的(我们当然不知道哪些是正确的哪些是错误的,所以才要做研究嘛)。然后再让我们设想我们的科学家很聪明,可以找出那100个正确假设中的80个,这个被我们称为statistical power = 80%。那么剩下的20个就变成了false negative(也就是说它们本来是正确的,却被我们误以为是错误的,因为实验没设计好,或者样本数量太小等)。

    好了,现在我们再设想,在剩下的900个错误的假设中,由于我们使用了5%的p-value,其中的45个将被我们 “错误的” 认为是正确的,也就是false positive。上面那个 “人类可以预见未来” 的例子就是一个典型的false positive。那么还剩下855个本来就是错误的假设,则会被科学家们 “正确的” 认定为错误的。但问题是学术期刊很少会发表没有什么结论的论文,例如 “人们不能预测未来” 这样的论文。所以在那855个实验中,最后被发表的大概也就20个。

    好了,我们发现什么呢?在所有被发表的论文中,一共有80 + 45 + 20 篇,而其中的三分之一,也就是45篇,都是像 “人类可以预见未来” 这样的 false positive,换句话说,社科类发表的论文中可能有三分之一的结论都是错的!如果你没看懂我上面的那一大段描述也没关系,只需要记住这句话就好了。以上这些内容都被发表在2005年的一篇名为 Why most published research are false(为什么大部分被发表的论文都是错误的)的论文中。

    论文被发表后,心理学界开启了一项 reproducibility project,也就是重复做一遍之前最重要的一百篇论文中的实验,结果发现其中的64%竟然在第二次实验中的p-value都大于5%了,也就是说第一次被发表的实验其实是不过是巧合,印证了 “大部分被发表的论文都是错误的” 的论断。在另一个针对癌症界最重要的的53篇(“landmark studies of cancer”)论文的重复实验中,科学家发现竟然只有6个实验在第二次的重复实验中还是正确的。换句话说,其中的47个都是巧合!

    太可怕了。这到底是为什么呢?让我们举个例子。

    2015年,一篇名为 “每天吃一块黑巧克力可以帮助你减肥” 的论文火遍全球,黑巧克力一度成为了 “superfoods”。然而后来人们发现,写这篇论文的科学家其实受到了巧克力公司的赞助。事发之后,我们发现科学家其实是这样做实验的,他们将人们分两组,吃一样的食物,只是其中一组每天多吃一个巧克力棒,然后同时追踪测量多达18种人类身体的表现,例如体重,睡眠质量,胆固醇等等。

    因此,如果体重没有变化的话,睡眠质量可能(因为巧合)而变的更好呢?如果是这样,论文的题目就可以变成 “每天吃一块黑巧克力可以提升睡眠质量”。很明显,使用这种(被科学家称为p-hacking的)方法可以大幅度提高因为巧合而出现positive的概率。

    当然,p-hacking的方法不止这一种。还有例如我们已经有了80个人的数据,但是p-value大于5%,怎么办呢?再找10个人的数据,说不定p-value就小于5%了呢。但是事实上如果我们再次找多10个数据,当数据变成100个的时候,p-value很可能又大于5%了,但是对于科学家来说,则不会去做后面这一步。因为对于他们来说,发表论文是第一要务,论文被引用的数量决定了他们在学术界的地位,但是要想论文被引用,首先要能发出去呀,要发出去,p-value就要小于5%。

    我知道你现在在想什么,早就说了社会科学不是科学嘛。那物理学总是科学吧?我们知道在物理学上,组成原子的质子和中子各包含三个夸克,科学家曾设想可能会存在一种叫做Pentaquark的粒子,它会包含五个夸克。

    于是物理学家们便开始了实验。物理学的p-value是多少呢?五个标准差。什么意思呢?就是只有350万分之一的概率是巧合。2002年,日本物理学家宣布它们在实验中发现了Pentaquark,在随后的两年中,又有11位相互独立的科学家宣布它们在实验中分别发现了Pentaquark。可是后来的故事我们也能猜到,更为精确的实验证明了根本就没有这种东西的存在。原来之前的那些物理学家们都在p-hacking。

    事实上,不管我们的p-value制定的多么小,数据总是在科学家手里的,如果他们真的想p-hacking,真的想要得到一个可以发表的结果的话,很多时候还是有办法的。

    而前面我们已经提到了,发表论文被引用的数量决定了科学家在学术界的地位,因此科学家们有很大的动力 p-hacking,就像教授 Brian Nosek 说的那样:“论文的内容错了不会产生成本,真正的成本是论文得不到发表。”

    到这里我们就知道,即便是最最专业,最最严谨的学术论文都有很多错误与偏见,那么可想而知我们平时读到的报刊,杂志,更不用说微信和微博上的文章了。有一句话让我印象深刻,“我们每天得到的信息中,有2%是真正的真相就不错了。” 即便是写出这些东西的 Murph,当然也有自己认知的局限和偏见。因此 Ray Dalio 说的那句 “坚定的追求真相” 真的是一件很难办到的事,需要我们付出最大的努力啊!

    相关文章

      网友评论

          本文标题:认知中的偏见(二)

          本文链接:https://www.haomeiwen.com/subject/olhdtqtx.html