医学临床试验文献统计方法解读（我们需要多少样本）

作者: Norman_Plus | 来源:发表于2019-10-04 18:12 被阅读0次

医学临床试验文献统计方法解读（我们需要多少样本）
医学临床试验文献统计方法解读（一）
医学临床试验文献统计方法解读（t检验）
医学临床试验文献统计方法解读（卡方检验）
回归模型中的校正（adjusted for）及其意义
医学临床试验文献统计方法解读（偏相关系数）
医学临床试验文献统计方法解读（组内相关系数）
伯克松悖论
如何估算总体比例的置信区间？
【译】小样本的统计分析问题

三、分析试验需要多少样本数据的思路框架

在所有的研究开始之前，我们都面临这么一个决策。

多少数据才算够？

显然，我们做研究的资源（人力、物力、财力和时间等）都是有限的，如果我们想要研究的问题需要的数据量远远超出我们的能力范围，那么我们就面对着一个残酷的现实：
这个研究还没有开始，就已经注定失败了

所以，研究前要对所需的数据量作尽可能准确的估计。

（一）要解决问题：

文献中的确定样本统计量的方法如下：“统计功效分析：从我们之前的研究得出，内源性骨质增加的不同分组间的平均值差异为0.8毫米，每一个组别的标准差为1毫米。当我们定义检测此差异的显著性水平为0.05，统计功效为0.8时，每一个研究组所需的被试数量至少为20个。
所以，我们需要找到找到文献中利用统计功效分析计算出所需样本量的方法。

（二）涉及的基本统计概念

p值、显著性水平、统计功效、统计效应等概念相互关联。

p值、显著性水平α

1.p 值定义：p值是在假定原假设为真时，得到与样本相同或者更极端的结果的概率。

与样本相同或者更极端的概率，可以想象正态分布的钟形曲线，p值代表的是包含样本值及其右侧的尾部区域（意为更极端结果）累计概率值（如为双侧检验，则包括左、右两侧的尾部区域）。

2.显著性水平α定义：试验中我们要选定一个假设为原假设，另一个作为备择假设。当原假设为真时而拒绝原假设的事件成为类型1错误，发生这种错误的概率称为检验的显著性水平（significance level).

拒绝原假设的检验统计量的值集称为拒绝域，接受原假设的值域称为接受域。

（1）统计上的显著性：

在实践中，以原假设的分布来构造检验。
显著性水平α通常选择较小的数值，如0.01或0.05.
当样本值，即检验统计量，落在拒绝域中，即发生了概率低于0.05的小概率事件（对应的p值小于0.05），从而反证原假设不成立，更合理的解释是备择假设成立。上面的推理过程称为“统计上的显著性”。
而当样本值落在接受域，对应的p值大于0.05，则样本之间的差异仍在原假设分布内含随机性的合理范围之内，根据检验统计量不能拒绝原假设。

3.案例

案例请读博客文章：
[你真的懂p值吗](https://www.afenxi.com/23239.html）

统计功效

定义：当原假设为假时，接受原假设的事件为类型2错误，其概率通常记为β。而当原假设为假时拒绝原假设的概率称为统计功效（statistical power),为1-β。β的值一般设定为0.2.

统计功效指的就是：如果我们感兴趣的效应或差异的确存在，在给定的显著性水平的规定下，我们能够正确地拒绝原假设的概率。也就是不犯第二类错误的概率。

统计效应

统计效应是我们做试验要测量的试验组和控制组之间差异的大小。它是一个抽象的概念，它在数学上到底是什么形式取决于具体的统计测试。

相关分析的效应大小是相关系数
t检验的效应大小是均值差与标准差的比值
卡方检验的效应大小是OR值（比值比）

效应越大，就越容易在研究中表现出来，亦即所需要的数据量越小，反之亦然。

（三）利用功效分析测算样本所需统计量的方法

基本原理

统计学家证明，统计功效（1-β）由这些因素决定：标准化的统计效应大小（ES）、样本量（N）、显著性水平。
这四个量只要知道其中任意三个，就能求出剩下的一个。因此，如果需要在开展研究之前估计所需的样本量N，只需知道显著性水平、1-β和ES，剩下的事情交给计算机软件就可以完成了（如SAS、SPSS、R等都有利用功效分析来估计数据量的模块）。
而，显著性水平、统计功效一般都设定好了。

难点在于标准化的统计效应大小

真实的效应大小在某种意义上说我们是永远无法知晓的，即使经过了大量研究，我们也只能不断接近真相。而在功效分析估计数据量时，我们连研究都还没开始做呢，那怎么估计呢？
最常用的估计效应大小的方法有两种：

先使用少量受试者或样本进行试点研究，用获得的结果作为功效分析中的效应大小的值。这是最直接的估计效应大小的方法。容易想到，试点研究的样本量越大，研究设计与将来要进行的实验越接近，对效应大小的估计就会越准确。
如果由于条件限制，无法进行试点研究，我们可以采取“旁敲侧击”的方式——对与计划进行的研究话题、方向、对象相近的已发表的研究进行全面细致的回顾，合理推算将要进行的研究可能获得的效应大小。
毫无疑问，这种方式有一个软肋：已有的研究不可能与我们将要进行的研究完全相同，因此难免会有无法精确控制的偏差；而且，到底哪些研究算“相近”，存在着相当多的模糊性。但是利用相近研究估计效应大小往往能够综合来自大量样本的结果，比起试点研究又有着独特的优势。近年来，利用规范、系统化的检索标准和严格定量的统计学方法对大量已发表研究的结果进行整合的“荟萃分析”（meta-analysis，又译为“元分析”、“整合分析”等）得到了越来越广泛的应用，它能够为功效分析提供更准确、更可靠的效应大小估计。

（四）扩展阅读

本章思路的主要来源：说人话的统计学：做统计，多少数据才算够？
医学统计学与 SPSS 软件（基础篇）-COURSERA
功效分析-知乎
5分钟统计学：015假设检验、019测量效应与检验效能--来自喜马拉雅听音频节目。

网友评论

本文标题：医学临床试验文献统计方法解读（我们需要多少样本）

本文链接：https://www.haomeiwen.com/subject/xcdspctx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

医学临床试验文献统计方法解读（我们需要多少样本）

三、分析试验需要多少样本数据的思路框架

多少数据才算够？

所以，研究前要对所需的数据量作尽可能准确的估计。

（一）要解决问题：

（二）涉及的基本统计概念

p值、显著性水平α

1.p 值定义：p值是在假定原假设为真时，得到与样本相同或者更极端的结果的概率。

2.显著性水平α定义：试验中我们要选定一个假设为原假设，另一个作为备择假设。当原假设为真时而拒绝原假设的事件成为类型1错误，发生这种错误的概率称为检验的显著性水平（significance level).

（1）统计上的显著性：

3.案例

统计功效

定义：当原假设为假时，接受原假设的事件为类型2错误，其概率通常记为β。而当原假设为假时拒绝原假设的概率称为统计功效（statistical power),为1-β。β的值一般设定为0.2.

统计效应

统计效应是我们做试验要测量的试验组和控制组之间差异的大小。它是一个抽象的概念，它在数学上到底是什么形式取决于具体的统计测试。

效应越大，就越容易在研究中表现出来，亦即所需要的数据量越小，反之亦然。

（三）利用功效分析测算样本所需统计量的方法

基本原理

难点在于标准化的统计效应大小

（四）扩展阅读

相关文章

医学临床试验文献统计方法解读（我们需要多少样本）

医学临床试验文献统计方法解读（一）

医学临床试验文献统计方法解读（t检验）

医学临床试验文献统计方法解读（卡方检验）

回归模型中的校正（adjusted for）及其意义

医学临床试验文献统计方法解读（偏相关系数）

医学临床试验文献统计方法解读（组内相关系数）

伯克松悖论

如何估算总体比例的置信区间？

【译】小样本的统计分析问题

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读