本文选编自万维刚的文章《P<0.05:科学家的隐藏动机》,目的是让大家了解下真实世界的科学研究方法,尤其是人文社科类的。
所有心理学、医学和社会调查研究中,凡是涉及到统计方法的研究,从理论上来讲,哪怕科学家都是兢兢业业老老实实地工作,大约每20篇论文中,就有一篇的结果,其实是无效的。而因为科研界很多灰色的做法,实际情况比1/20要坏很多。
这个误差,是科学方法本身所决定的。
1、统计结论是怎么来的
比如现在有人发明了一种新药,你怎么证明这个药是有疗效的呢?有个病人吃了这个药,然后他的病就好了,你能说这个药有疗效吗?不能。因为有些病不吃药也能好。
科学的做法,当然是做个随机实验。我找100个病人,随机分成两组,每组50人。我们给第一组病人吃新药,给第二组病人吃跟新药看上去一模一样的……糖豆,也就是“安慰剂”。病人自己并不知道被分到了哪一组,我们甚至还可以让负责发药的医护人员也不知道每次发的是新药还是安慰剂,这样所有病人除了吃的药不一样,其他方面都是一样的,这就做成了一个“双盲”实验。
假设第一组的所有病人都活着,而第二组死了5个病人[1]。也许正是新药的疗效,才让第一组没死人,但也许这只是一个巧合。
科学家的做法,是先来一个“无效假设 ”:
假设药物无效,并且这个疾病的死亡率就是第二组所揭示的10%。
科学家的问题是,如果这个无效假设是对的,那么请问,出现第一组不死人这个结果的可能性,有多大?
这个问题的本质,就是问,你第一组这么好的结果,到底是不是纯属偶然。纯属偶然是完全可能的。哪怕药物完全无效,以至于这个病还是有10%的死亡率,那也不见得第一组就也应该死5个病人 — 你要知道,哪怕是抛硬币,也存在一个连抛50次都正面朝上的可能性。
那我们就来算算这个可能性。每个病人不死的概率是0.9,50个人都不死的可能性就是0.9的50次方,等于0.00515。
科学家把无效假设成立的可能性,称为“P值 ”。那么在这个例子中,
P = 0.00515。
那也就是说,无效假设不成立、第一组实验结果并非偶然的可能性,是 1 - P = 0.99485。
那么科学家就会这么写论文:“实验证明,这种药是有效的,P = 0.00515。”
读者读到这句话,就可以这么理解,实验结果应该不是巧合,这种药有效的可能性高达99.485%。
这才是理解论文的正确思路。P 值告诉我们巧合的可能性 。回到咱们最开头的实验,在一定的 P 值的指导之下 ,我们也许可以说:药物疗效大概是真的,第一组的治愈率高很可能不是巧合,而第一组多死了一个人这件事,很可能只是巧合。
但是对不起,你注意到没有,我们前面说错了一句话。“这种药有效的可能性高达99.485%”,这句话是错的。
2、怎样理解 P 值
关于 P值有很多错误理解。我们前面那句“这种药有效的可能性高达99.485%”其实是错的,但是很多科学家跟记者也这么说。
P值的真正意思是说, 相对于“死亡率是10%”这个“无效假设” ,实验结果纯属巧合的可能性是0.00515。那我为啥非得用死亡率是10%这个无效假设,我为什么不用别的无效假设呢?这纯粹是科学家的主观选择。
还有一点特别重要,P 值只能让我们更好地评估这个药*有没有*疗效,但是它可没说这个药的疗效有多大。
比如2013年《自然》杂志上有个影响很广的论文 [2],说 --
“针对19,000人的研究表明,如果夫妻双方是通过婚恋网站介绍认识的,他们离婚的可能性比在线下认识的夫妻低 (P < 0.002) ,他们收获较高婚姻满意度的可能性也比线下认识的夫妻要高 (P < 0.001 )。”
这两个 P 值很低,说明结果绝非偶然。那我们能从这段话里得到什么结论呢?是不是说在生活中找对象这种做法太落后了,我们应该把命运交给婚恋网站的匹配算法呢?
不至于。你要仔细看 [3] 这篇论文的结果,婚恋网站只不过把离婚率从 7.67% 降到了 5.96%,把婚姻满意度从 5.48 分(满分 7 分)提高到了 5.64 分而已!这点效应根本不值得你太认真。
现在学术界的一个几乎是“黄金标准”的标准,是 P 值要小于 0.05。如果 P > 0.05,别人会认为你这个结果很可能纯属巧合,根本不值得认真对待,你都不好意思写论文发表。如果 P < 0.05,人们就说这个结果是“显著的(significant) ”。
但是请注意,这个“显著”的意思,可不是说疗效很厉害 —— P 值关注的仅仅是*有没有*疗效,不是疗效的大小!
还有个关键问题。为啥非得是 0.05 呢?
3、P<0.05
我看有些统计学教材都把 0.05 当成了一个硬性标准,P< 0.05 就显著,否则就不显著。但事实上这个标准根本没有科学依据,纯粹是科学家的约定俗成而已。
这一整套看 P 值的检验方法是英国的统计学家罗纳德·费希尔(Ronald Fisher)提出的,这个理论才只有几十年的历史。
费希尔先生是个体面人。他当时选择了0.05这个数值,可不是说 P< 0.05 就可以发表论文 —— 他的意思是 P< 0.05 的结果才“值得看”。那满足什么标准才算可以接受的结论呢?费希尔当时想的可是 P< 0.001[4]。
但问题在于,做实验想要得到 P 值小于0.001的结果,需要找太多受试者,成本实在太高。大家退而求其次,都默认了 0.05。其实即便是这个标准都是很难达到的,不知道有多少科学青年的青春,就消耗在了这个 0.05 上!
其实就算做到了 P < 0.05,也不能说实验结果就是真的 —— 根据我们前面的分析,P = 0.05 意味着有 1/20 的可能性,在你这个特定的无效假设之下,这篇论文的结果纯属巧合。事实情况比这个严重得多,根据有人研究 [3],如果你考虑到无效假设的任意性之类的统计方法上的因素,一篇 P = 0.01 的论文,属于巧合的可能性,在某些情况下,高达11%!
而这还不算完。
4、动机性推理
说到这里我想说一个概念,叫“动机性推理(motivated reasoning)”。所谓动机性推理,就是如果你事先有一个达到什么结论的强烈动机,你的推理过程就会刻意地满足这个结论。
如果科学家非常希望自己的结论是对的,他想让 P值小于0.05,他就有可能采取一些主观的做法,达到这个标准。
你可以选择一个不一样的无效假设。你可以看 P值太高就再多招几个受试者做实验。再比如说,实验组多死了一个人,你可以说这个病人是个特殊病人,他有别的病,他的死亡是因为别的病的并发症,这样的数据不算数!—— 你就把这个不利的数据给剔除了。这个做法叫“数据采摘”,英文叫 cherry-picking — 你就好像挑选樱桃一样,只要你想要的数据。
Cherry-picking 不算造假,但是也不能算诚实的科研态度。
那你可能问,你说科学家刻意美化了数据,这有根据吗?我们的确不能拿着一篇论文就说人家的 P值是经过美化的,我们不了解人家的实验是怎么做的。但是如果你把很多论文都放在一起,看看P值在这些论文中的分布情况,你就会发现一个很有意思的现象。
P < 0.05纯粹是人为的约定,没有任何自然意义,所以各个研究中 P值的分布应该是一条光滑的曲线,0.05这个数值在曲线上不应该有任何突兀之处,对吧?当然,有些P > 0.05 的结果也许没有发表,那么曲线应该在0.05这个地方有个截断,但是0.05不应该比0.045重要,对吧?
可过去这几年,就不断有研究发现,在经济学、心理学和生物学论文中,P 值的分布,在0.05处有个明显的凸起 [5] ——
唯一的解释,就是有很多论文故意把 P 值*做*到了“恰好”在 0.05 以内。
5、结论
P值代表*在一定的无效假设之下*,实验结果纯属巧合的可能性 —— 有相当比例的实验结果其实就是巧合。
P值只能预示*有没有*疗效,而与疗效的大小无关。
P值小于 0.05,是个不怎么体面的人为约定。
即便如此,还是有很多科学家使用 cherry-picking 之类的手段,美化了自己研究的P值。
这几天我们在讲《头脑里的大象》这本书,说每个人都有隐藏的动机 —— 现在看来,连科学家也不例外。那别的行业是什么样,也就可想而知了。
那科研结果还能信吗?能信,科学方法是获取知识“最不坏”的方法。而且近年来,科学家们自己,也正在积极反思 P 值代表的问题。
真实世界就是这样 —— 没有我们最初想象的那么美好,但是总值得我们活下去,而且有一点你不能不承认:它比我们想象的更有意思。
参考文献
[1] 这个例子来自 Jordan Ellenberg, How Not to Be Wrong: The Power of Mathematical Thinking, 2014.
[2] Regina Nuzzo, Online daters do better in the marriage stakes, Nature, 03 June 2013.
[3] Regina Nuzzo, Scientific method: Statistical errors, Nature, 12 February 2014.
[4] 此事见于 Leonard Mlodinow, The Drunkard's Walk: How Randomness Rules Our Lives, 2009.
[5] 图中三个研究的出处可以在这里找到:http://datacolada.org/41
网友评论