5. 使用小样本
当样本量很小时,只能检测到较大的效应,这使得对效应量真正大小的估计充满不确定,进而导致对实际效应量的高估。在显著性阈值α=0.05的频率统计中,有5%的统计性检验在没有实际效应的情况下将产生显著性结果(假阳性,I类错误)。但是,研究者更倾向于认为高相关(例如,R>0.5)比中等相关更可靠(例如,R=0.2)。
如果样本量较小,则这些假阳性的效应量会很大,从而导致显著性谬误:“如果一个假设效应量大到用小样本就能检测到,那它一定是正确的。”
重要的是,更大的相关性并不是两个变量之间更强关系的结果,而只是因为在实际相关系数为0时,小样本更可能出现较大的相关。例如,当不断从两个不相关的变量中抽取N=15的样本并计算其相关时,得到虚假相关(即假阳性)的可能性大约在|0.5-0.75|之间,而不断抽取N=100的样本时,则假阳性为|0.2-0.25|。
小样本的设计也可能无法检测出真实的效应(II型错误)。对于给定的效应量(如,两组之间的差异),抽取的样本量更大,(成功)检测该效应的可能性更大(这种可能性被称为统计检验力,或者统计功效,statistical power)。因此,使用大样本,可以减少效应存在却未被检测到的可能性。
另一个与小样本量有关的问题是样本的分布更有可能偏离正态。有限的样本量通常无法严格地验证正态性假设。在回归分析中,分布的偏差可能会产生极端值,从而导致虚假的显著相关(参见上面的“虚假相关”)。
如何发现该错误
审稿人应该严格检查论文中使用的样本量大小,并判断样本量是否足够。基于有限数量被试的特殊结论应被特别标注出来。
解决方案
来自小样本的单个效应量或单个p值的价值是有限的。研究者首先应该证明他们使用的统计检验有足够的统计检验力,例如呈现先验统计力分析,或研究的重复检验。
计算统计功效的困难在于,它应该基于对独立数据集的效应量的先验计算,而这在综述中很难进行评估。贝叶斯统计提供了确定事后比较统计检验力的机会。
在样本量难免受到限制的情况下(例如,对罕见临床群体或非人类灵长动物的研究),应该努力重复实验(案例内和案例间),并进行足够的控制(如,确定置信区间)。
6. 循环验证
循环验证指以任何形式,回溯地选择数据的某个特征作为因变量进行分析,从而扭曲统计检验结果。循环验证有很多种形式,但本质上都包含先使用数据刻画(characterize)某需要被检验的变量,然后再对该批数据进行分析并进行统计推断,因此通常被称为“双重浸渍”(double dipping)。
循环验证最常见的做法是:找到一个与统计结果非常相关的选择标准,回溯性地使用这个标准以完整的数据进行分析(如分组、分成不同的子集)或者删减数据(例如在神经成像研究中定义感兴趣区,或者排除极值)。(HCP注:原文在这里的表达也不是特别清晰,以定义感兴趣区为例。)
假如研究者先在全脑范围寻找与特质焦虑相关的大脑区域,比如小脑;使用这一标准将小脑选择出来,然后再计算小脑与特质焦虑之间的相关,并推断:小脑与特质焦虑高度相关。这就是典型的循环论证。)
例如,一个研究关注神经元集群在某一实验操纵后的发放率。使用该神经元集群的整体数据时,发现操纵前和操纵后没有显著差异。但是,研究者发现集群中一些神经元在该操纵后的发放率增加,而另一些神经元则降低。他们因此将整个神经元集群进行分组,依据是神经元在操纵前神经元的发放率。分组后再进行统计分析。
这样一来,就得到显著的交互作用——操纵前发放水平低的神经元在操纵后增加了,而操纵前发放水平高的神经元则在操纵后反应降低了。但是,这种显著的交互作用完全是由于人为的选择标准加上数据中的噪音(例如,神经元活动可能只是随着时间的变化,在操纵前后回归到均值水平)共同导致的,这种交互作用完全可以在纯粹的随机噪音中观察到。
循环验证的另一种常见形式是在自变量和因变量之间创建依存关系。继续上文神经元集群的例子,研究者可能报告操纵后神经元反应水平和操纵前后神经元反应水平之间差值的相关。但是这两个变量都高度依赖于操纵后测量到的神经元反应水平。因此,由于偶然因素在操纵后有更高活动水平的神经元,也可能会表现出更大的操纵前后的差异,因此研究者报告的相关可能是夸大的。
在零假设前提下,如果统计分析的结果与数据选择标准独立,选择性分析是完全合理的。但是,循环验证将(存在于任何数据中的)噪音也纳入到结果之中,会夸大统计结果,并导致歪曲和无效的统计推论。
如何发现该错误
循环验证可以以多种形式表现,原则上来说,筛选统计指标的选择标准本身偏向于证实目标假设时,就属于循环验证。在某些情况下这非常明显,比如统计分析的数据所基于的标准是为了显示期望的效应,或者统计分析的数据本身就与感兴趣的效应存在内在联系。
在另一些情况下,(发现)循环验证可能会很复杂,并且需要对数据选择和数据分析步骤中的相互依赖关系有更细微的了解。
审稿人应该警惕理论上不可能达到的,和/或基于相对不可靠的测量得到的过高效应量(如果两个测量工具的内部一致性很差,这种内部一致性会是有意义相关的上限)。在这些情况下,审稿人应要求作者对选择标准与期望效应之间独立性进行说明。
解决方案
提前且独立于数据的情况下确定分析标准,可以避免循环验证。此外,由于循环验证将噪音纳入分析,从而使想要的效应虚高,最直接的解决方案是分别使用不同的数据集(或者数据集的不同部分)来确定分析的参数(例如,选择亚组)和检验你的预测(例如,检验不同亚组之间的差异)。
这种分组方法可以在被试水平(使用不同组来确定缩减数据的标准)或试次水平(使用来自全部被试的不同试次)完成。可以使用bootstrapping方法在不降低统计检验力的情况下实现。审稿人可以要求作者进行模拟,证明想要的效应与噪音的分布、选择标准之间彼此独立。
7. 分析方法的多样性:p-hacking
变换数据分析方法(例如变换结果的参数,添加协变量,不确定的或不稳定的预处理程序,根据统计结果来排除异常值或题目,会增加得到显著p值的可。)这是因为一般的统计方法依赖于概率,使用的检验方法越多,得到假阳性结果的可能性就越大。
因此,在某个数据中得到显著的p值并不困难,且对于显著的效应总能进行合理的解释,尤其是在没有明确假设的情况下。但是,在分析程序中的变换越大,观察到的结果不真实的可能性就越大。
当一个团队在论文中报告的是用不同方法计算的同一变量的值时,或者当临床实验改变其结果时,分析方法的变换尤为明显。
可通过使用标准化的分析方法,进行实验设计和分析的预注册或进行重复实验来避免此问题。可以在得到第一次实验结果之后和在重复实验之前进行实验的预注册。但是,防止p-hacking最好的方法也许是在一定程度上接受边缘显著或不显著的结果。换句话说,如果对实验进行了精心设计,执行和分析,审稿人不应该因为结果而“惩罚”研究者。
如何发现该错误
研究者是否采用了多种分析方法很难被检测出来,因为研究者很少报告所有的必要信息。在进行预注册或临床实验注册的情况下,审稿人应比较实际使用的与计划使用的分析方法。
在没有预注册的情况下,某些形式的p-hacking是几乎不可能检测到的。但是,审稿人可以评估对所有分析方法的选择是否合理,相同的分析计划是否在以前的出版物中使用过,研究者是否提出了可疑的新变量,或者他们是否收集了大量的指标,却只报告了显著的那些。Forstmeier等人(2017)总结了检测可能的阳性结果的实用技巧。
解决方案
研究者应该明晰报告的结果,例如,区分事先计划的分析与探索性分析、预期结果与意外结果。正如我们在下文讨论的,如果进行透明地报告和解释,灵活地进行探索性分析并没有问题,尤其它们作为下一步有着具体分析方案的重复研究的基础时,是合理的。这些分析方法可以为额外的研究提供有价值的依据,但不能作为强有力的结论的基础。
8. 未进行多重比较校正
当研究者检验任务效应时,他们经常检验多个任务条件对多个变量(行为结果,问卷条目等)的影响,有时还存在先验假设不确定的情况。这种方法被称为探索性分析,与有更多限定条件的验证性分析相对。
使用频率统计时,在探索性分析中进行多重比较可能会对显著结果的解释产生很大的影响。在包含两个以上条件(或两组的比较)的实验设计中,探索性分析将涉及多重比较,也会在没有真实效应的情况下增加统计显著结果的可能性(即假阳性,I类错误)。
在这种情况下,因子数量越多,可以进行的检验就越多,观察到假阳性的可能性就越大(family-wise error rate)。例如,在一个2×3×3的实验设计中,即使效应实际上是不存在的,至少得到一个显著主效应或交互作用的概率也有30%。
进行多重独立比较时,此问题尤其突出(例如,神经影像分析,多重记录的神经元或脑电图)。在这种情况下,研究者在每个体素/神经元/时间点内进行严密的统计检验,由于设计中包含大量指标,检测到假阳性结果的可能性很大。
例如,没有对多重比较进行校正时,Bennett及其同事在死三文鱼中发现了被激活的体素(在“心理模拟”任务中激活)。此例说明了得到(identify)假阳性的结果有多么容易。尽管这个问题在探索性分析中更突出,但在验证性分析中设定大量的检验时,也可能出现问题。
如何发现该错误
未被校正的多重比较,可以通过测量的自变量的数量和使用的分析方法的数量来检查。如果这些变量中只有一个与因变量相关,那么其余变量可能就是纯粹为了增加得到显著结果的可能性而被纳入的。
因此,当对大量的变量(例如基因或MRI体素)进行探索性分析时,如果研究者没有明确的理由解释未经矫正的多重比较结果,那这个结果就是完全不可接受的。即使研究者提供了粗略的假设(例如,应该在特定的脑区或在近似潜伏期观察到效应),如果这个假设需要多个独立的比较进行检验,也需要对多重比较进行校正。
解决方案
探索性分析可能是没有问题的,但必须承认这是探索性分析。研究者应该报告所有测得的变量,并恰当地使用多重比较程序。例如,标准的多重比较校正肯定会发现在死三文鱼脑中没有激活。
请记住,有多种方法可以校正多重比较,有些方法比其他方法更为研究者所接受,因此仅呈现某些形式的校正还不一定能完全解决假阳性的问题。
9. 过度解释不显著结果
使用频率分析时,科学家使用统计阈值(通常α=.05)来判断统计显著性。有关此阈值主观性的文章很多,并且也有不少研究者试图提出替代方案。
除了这些我们将在结语部分阐述的问题,错误地解读不显著的统计检验结果也是严重的问题,且却极为普遍。这是因为不显著的p值无法区分无效应的结果是由于效应确实客观上不存在(与假设相反的证据),还是由于当前研究的数据不足以让研究者去严格地评估假设(如,缺乏统计检验力、不恰当的实验设计等)。
简单来说——效应不显著可能有非常不同的含义——真正的无效应、缺乏统计力去探测真实的效应,或模糊的效应。
因此,如果研究者用不显著的结果作为证据去否定有效应的假设,就需要说明该证据本身是有意义的。但p值这一统计方法不能达到此目的。将不显著结果混淆为支持无效应,还意味着研究者有时可能会(错误地)忽略p未达到0.05阈值的结果,认为该结果毫无意义,即使这个结果可能实际上提供了足够反对零假设的证据,或者至少有趋势表明需要进一步的检验。
如何发现该错误
研究者可能将不显著的p值解释或描述为不存在效应。这个错误非常常见,应该得到重视。
解决方案
首先,重要的是在报告p值的同时报告效应量,以提供有关效应大小的信息,这对于元分析也很重要。
例如,如果大样本的研究中效应不显著,同时效应量也很小,那么就不太具有理论意义,而具有中等效应量的结果可能值得进一步研究(Fethney, 2010)。可能的话,研究者应考虑使用能够区分不充分(或模糊的)证据与支持零假设证据的统计方法。
除非研究者已经事先确定他们的研究是否有足够的统计检验力来探测出想要的效应,或者有足够的统计检验力来确定所预期的先验效应的置信区间是否包含0。否则,研究者不应过度解释不显著结果。
10. 相关和因果
这可能是解释统计结果时最悠久和常见的错误(参见例如,Schellenberg, 2019)。在科学中,相关通常用于探索两个变量之间的关系。当发现两个变量之间存在显著相关时,我们很容易认为一个变量是导致另一个变量变化的原因。然而,这是不正确的。因为两个变量的共变并不一定意味着它们之间一定存在因果关系,即使存在这种可能。
例如,不同国家的巧克力年消费量与诺贝尔奖获得者数量之间的显著相关性(r(df = 20)=.79;p<0.001),曾经使我们(误)认为摄入巧克力为诺贝尔奖获得者的产生提供营养基础。仅有相关不能作为因果关系的证据。相关性的存在可能反映了正向或反向的因果关系,但也可能是由(未知的)常见原因引起的,或者可能仅仅是巧合。
如何发现该错误
每当研究者报告的两个或多个变量之间的关系不是由操纵导致的,却进行了因果推论,就很可能是混淆了相关和因果。研究者应该仅在精确操纵变量时进行因果推论,即使如此,也要小心无关变量的影响。
解决方案
可能的话,研究者应该尝试检验这两个变量与第三个变量之间的关系,来进一步支持他们的解释,例如,使用结构方程模型或中介分析(前提是有足够的统计检验力),通过检验竞争模型或直接在随机对照实验中操纵目标变量。否则,如果证据证明只具有相关性,就应避免使用因果说法。
避免这十个推断错误是确保结果不被严重曲解的第一步。但是,此清单的一个关键假设是,显著性检验(由p值表示的)对于科学推断是有意义的。具体而言,除了少数错误外( “缺乏适当的对照情境/组”和“相关和因果”),上述的大多数错误及其解决方案,都和p值紧密相关,与p值的意义有关,即特定统计检验中的p值代表的是实际上的犯错率。
当前,关于零假设显著性检验的有效性和显著性阈值的使用仍然处于争论之中。我们承认,仅一个p值不能揭示关系或效应的合理性、是否存在、真实性或重要性。但是,禁用p值并不一定能防止研究者对结果的错误推论。
当合理地进行使用时,p值可以对结果进行有价值的描述,当前也可以辅助学术的交流,至少在就如何解读统计效应的新共识达成之前如此。我们希望本文能在这些主要问题上,对作者和审稿人有所帮助。
参考文献
Makin, T. R., & Orban de Xivry, J.-J. (2019). Ten common statistical mistakes to watch out for whenwriting or reviewing a manuscript. eLife, 8, e48175. doi:10.7554/eLife.48175
文章转载自公众号:OpenScience
作者:Makin, T. R., & Orban de Xivry, J. J.
译者:李芊芊
排版:华华
网友评论