统计学可以从有限数据中得出一般结论。
推断统计学的全部要点是从有限的数据中推断出一个一般结论。“描述性统计学”只是描述数据,未得出任何一般结论。但统计学的挑战和困难之处在于从有限的数据中得出一般结论。
无法凭借直观来理解统计学。
“直观”一词有两层含义。其中一种含义是“易于使用和理解。”“直观”的另一种含义是“本能,或即使没有理由,也按照自己认为真实的东西去做。”使用该定义,统计推理绝非直观。思考数据的树根,直观往往会将我们引入歧途。人们经常在随机数据中看到模式,并经常得出未经确认的结论。从数据中得出有效结论需要统计的严密性。
统计结论总是以概率的形式出现。
“统计学意味着不能说绝对确信。”如果一个统计学结论似乎已确定,则可能是你在误解某些事情。统计学的全部意义是量化不确定性。
所有统计检验均基于假设。
每个统计推断均基于一系列假设。不要试图解读任何统计结果,直至您看完那个列表。每一次统计计算背后的假设是,数据是随机抽样的数据,或至少代表可收集到的更大数量的值。如果你的数据不能代表你本可(但没有)收集的更大数据集,则统计推断将没有意义。
应提前作出关于如何分析数据的决定。
分析数据需要许多决定。参数检验或非参数检验?是否排除异常值?是否首先转换数据?是否对外部对照值进行标准化?是否调整协变量?是否在回归中使用加权因素?所有这些决定(以及更多)均应为实验设计的一部分。如果统计分析的决定是在检查数据之后作出,统计分析很容易成为一种高科技的显灵板 - 一种产生预定结果的方法,而非一种分析数据的客观方法。新名称是p - 值篡改。
置信区间量化精确度,且易于解读。
假设你已计算所收集的一组值的平均值,或者产生某个事件的受试者比例。这些值描述你分析的样本。但你抽样的整个群体如何?真实的群体平均值(或比例)可能更高,也可能更低。95%置信区间的计算考虑了样本量和分散性。给定一组假设,你可95%的确定置信区间包括真实的群体值(你只能通过收集无限量的数据进行确定)。当然,95%并无特殊之处,仅仅是一种惯例。可针对任何期望的置信程度计算置信区间。几乎所有结果 - 比例、相对风险、优势比、平均值、平均值之间的差值、斜率、速率常数...- 应附加置信区间。
一个P值检验一个零假设,且在开始时可能会很难理解。
P值逻辑起初似乎很奇怪。检验两组是否不同时(不同平均值,不同比例等),首先假设这两个群体实际上相同。称之为“零假设”。然后询问:如果零假设为真,则随机获抽样本之间的差异与实际观察到的差异一样大(甚至更大)的可能性是多少?如果P值很大,则你的数据与零假设一致。如果P值很小,只有很小的可能性,则随机机会产生的差异与实际观察到的差异一样大。这使你质疑零假设是否正确。如果你不能确定零假设,就不能解读P值。
“统计学显著性”并不意味影响很大或在科学上很重要。
如果P值小于0.05(一个任意的、但广泛接受的阈值),则认为结果具有统计学显著性。该短语听起来很明确。但这意味着,这仅仅是偶然,在不到5%的时间,发生你观察到的差异(或联系或相关..)(或更大的差异)。就是这样。一个在科学上或临床上不重要的微小影响可能具有统计学显著性(尤其是在大样本量中)。该结论也可能错误,因为你会得出一个结论,结果在5%的时间具有统计学显著性,这仅仅是偶然。
“无显著性差异”并不意味着没有效果、效果很小或与科学无关。
如果差异无统计学显著性,则可得出结论:观察到的结果并非与零假设不一致。注意双重否定。不能得出零假设为真的结论。很有可能是零假设错误,且群体之间确实存在差异。对于小样本量而言,这尤其是一个问题。需要根据该结果作出决定时,将一个结果定义为具有统计学显著性或不具有统计学显著性是有意义的做法。否则,统计学显著性的概念对于数据分析没有什么帮助。
多重比较使得难以解读统计结果。
在一次检验许多假设时,多重比较的问题使其结果变得具有欺骗性。如果有5%的检验“具有统计学显著性”,且如果检验了许多假设,则可能就会期望得到许多具有统计学显著性的结果。可使用特殊的方法来减少该问题,即,发现假的但具有统计学显著性的结果,但这些方法也使得发现真实的效果变得更加困难。多重比较可能非常难以实施。仅当所有分析均计划妥善,且执行并报告所有计划妥善的分析均时,才可能正确解读统计分析。然而,这些简单的规则遭到广泛地破坏。
相关性并不意味着因果关系。
两个变量之间具有统计学显著性的相关性或关联可能表明一个变量会受到另一个变量的影响。但这可能只是意味着两者均受到第三个变量的影响。或者这可能是一个巧合。
网友评论