20.10.11. 医学中的统计学方法【引】

作者: mpcv | 来源:发表于2020-10-12 00:02 被阅读0次

杜院士是博士毕业马上要上院士在学校当老师的医生。

最近他老人家给我种草了统计学，三言两语我被问的一愣一愣的，感觉自己以前学的统计学都被狗吃了。

我决定要弱弱地回击一下。嗯，先扳回三十城吧。

好，开始。

导语：医学科技论文，特别是高质量的原始论著及根据高质量原始论著产生的系统评价已不断地改进和规范着临床医疗实践活动。因此，医学文献的质量高低与我们的临床医疗实践活动密切相关。然而，如果统计学方法应用不当，不仅不能准确地反映科研结果，而且还可能带来错误的结论。

1. 统计学方法的内容

$\bf\color{#c41}{统计软件包、检验水准、统计分析方法}$ 是统计学方法必须描述的3方面内容。

2. 统计软件包

SPSS (statistics package for social science) 和SAS(statistical analysis system ) 是全世界学术界公认且最常用的两大统计软件包。

3. 检验水准

检验水准即—— $\mathbf A$ 表示组间实际无差别而统计结果判断为有差别，犯这类错误的概率。实际工作中常取 $\mathbf {A=0.05}$ ，表示本次研究计算所得 $P$ 值必须小于0.05，才能认为组间差异有统计学意义。
因而对于检验水准的描述多简化为 " $\mathbf {P值< 0. 05 为有统计学意义}$ " 。

4. 统计分析方法

统计分析方法的准确描述是科技论文科学性的关键所在。统计学方法一般包括 $\bf\color{#c41}{统计描述}$ 和 $\bf\color{#c41} {组间差异性检验}$ (即：假设检验) 两部分内容。

4.1 统计描述

统计描述主要是根据资料类型及原始数据分布类型，选择正确的指标描述资料特征。

4.1.1 资料类型

资料类型分为定量资料和定性资料。

定量资料是指对每个观察对象测得的某个指标能够用具体数值表示，如：年龄、身高、每张切片的阳性细胞百分率等;

定性资料指对每个观察对象测得的某个指标不能用具体数值表示，仅反映观察对象的某一特征，如: 阳性、阴性，ABO 血型，治愈、显效、好转、无效等。

4.1.2 资料的统计描述

（1）正态分布-定量资料-的统计描述

定量资料如果符合正态分布，统计描述指标可用均数及标准差，一般描述为“数据以均数±标准差表示”;

（2）非正态分布-定量资料-的统计描述

定量资料如果不符合正态分布，则统计描述指标选用中位数和级差(即: 最大值和最小值之差)。

区分资料是正态或偏态分布，可以通过SPSS、SAS 统计软件程序判断，也可以通过目测数据是否有"极端值"，即特别大或特别小的数据，进行判断。

（3）定性资料-的统计描述

定性资料的统计描述包括率、构成比及相对比。

率表示单位时间内某现象或事物发生的概率，如发病率、死亡率等；
构成比指事物内部某一部分的个体数与该事物各部分个体数的总和之比，表示各构成部分在全体中所占的比重或分布，不能说明某现象发生的频率或强度，如性别构成、疾病构成、死亡构成等。然而，在实际应用中以构成比代替率很常见。

例如，某文分析240 例耳鼻咽喉科住院患者，鼻窦炎41 例，称发病率17. 08% ，文中“发病率”实际为鼻窦炎患者在该科所有患者中的构成比。此外，还有将病死率误用为死亡率、患病率误用为发病率等，这些都需引起作者的注意。某种疾病发病率= 某段时间内发生该疾病的人数/某段时间内可能发生该种疾病的总人数某种疾病构成比= 某段时间内发生该疾病的人数/某段时间内发生各种疾病的总人数。

4.2 假设检验

科技论文中最常用的是组间差异性检验。假设检验方法很多，不同的科研设计类型及资料类型适用的检验方法有所不同。定量资料与定性资料常用的统计分析方法介绍如下。

4.2.1 定量资料

定量资料的统计分析方法包括参数法和非参数法.
参数法——t检验、方差分析；非参数法——秩和检验。
选择的关键在于资料分布类型，如果资料符合正态分布且组间方差齐(即各组标准差彼此接近) 则选用参数法，不符合则选用非参数法。
但在许多医学论文中经常忽略这两个条件，不考虑资料的分布直接采用t 检验或方差分析，由此得出的分析结果是不可信的，见例1。

例1:
为研究 $\bf {TGF-\beta}$ 、 $\bf CEA$ 肿瘤标志在喉癌患者手术前、后有无差异，分别检测了58 名患者前及术后 $\bf {TGF-\beta}$ 和 $\bf CEA$ ，经配对 $\mathbf t$ 检验， $\bf {TGF-\beta}$ 术前、后差异有统计学意义，结果见表1。

表1. 肿瘤标记物术前术后的检测*

组别	TGF- β(μg/l)	CEA（μg/l）
术前	19.0±26.3	34.0±79.0
术后	4.8±7.5*	20.6±11.2

与术前比较p值﹤0.05

表中两指标标准差均相差达2 倍以上，提示方差不齐，故不宜采用t 检验，而适合采用秩和检验。
$\bf\color{#f00}{t检验}$ 用于两组均数间的比较，包括两独立样本 $\mathbf t$ 检验、配对 $\mathbf t$ 检验和样本均数与总体均数比较的 $\mathbf t$ 检验；
$\bf\color{#f00}{方差分析}$ 用于两组或两组以上均数的比较。然而,在许多医学论文中，对于3 组或3 组以上均数的两两比较，常重复使用独立样本t 检验作比较，如例2。这样会加大犯阳性错误的概率，即可能将无差别的两个总体均数判断为有差别。这点尤其需引起作者的注意，这也是医学科技论文中 $\mathbf {t检验}$ 滥用的重要表现之一。

此类资料正确的分析方法应是先进行方差分析，以确定这几组均数总体差异有无统计学意义；如果有统计学意义，则进一步采用 $\bf\color{#00f}{q检验}$ (任意组间两两比较) 或 $\bf\color{#00f} {Dunnett\ t 检验}$ (每个实验组与对照组比较) 以确定哪些组间差异有统计学意义。

例2:
为了解不同分化程度的下咽癌患者 $\mathbf {VEGFR-3}$ 表达阳性脉管的数目 $\mathbf {VEGFR-3}$ 表达阳性脉管差异，分别检测16 例高分化患者，15 例中分化者及13 例低分化者，作者采用独立样本 $\bf {t检验}$ ，结果见表2。

表2 下咽癌组织中VEGFR- 3 表达阳性脉管与病理分级的关系

组别	例数	VEGFR- 3 表达阳性脉管
高分化组	16	14.29±6.50
中分化组	15	15.65±5.84
低分化组	13	16.16±4.75

各组之间p 值﹥0.05

4.2.2 定性资料

定性资料整理与归纳后，主要分为3种类型，即四格表资料(只有2组，且结果变量为2分类变量，总络子数为4见表3)、行×列表资料(总格子数>4，见表4) 和列联表资料(又称双向有序资料，见表5)。
行×列表资料又包括单向有序资料(即等级资料，2组或2组以上，结果变量为有序多分类变量，见表6)。不同资料类型采用的统计分析方法有所不同。

表3 四格表资料格式

组别	阴性	阳性	合计
实验组	10	29	39
对照组	24	11	35
合计	34	40	74

表4 行×列表资料格式

组别	阴性	阳性	合计
实验1组	10	29	39
实验2组	15	19	34
对照组	24	11	35
合计	49	59	108

表5 列联表资料格式

N 分期
T 分期	N0	N1	N2	N3	合计
:-:	:-:	:-:	:-:	:-:	:-:
T1	15	9	4	3	31
T2	13	14	9	4	40
T3	9	14	6	5	34
T4	8	7	7	4	26
合计	45	44	26	16	131

表6 单向有序资料格式

组别	无效	好转	显效	治愈	合计
实验组	3	9	11	19	42
对照组	9	5	7	9	30
合计	12	14	18	28	72

四格表资料χ2 检验医学论文中，四格表资料χ2 检验的应用很常见，但使用时应注意具体的应用条件。当总例数大于40，且每个格子的理论频数均不小于5 时，应用未校正的χ2 检验;如果总例数大于40,有一个格子的理论频数小于5 但大于1，采用校正的χ2 检验; 如果总例数小于40，或有一个格子的理论频数小于1，则采用Fisher 确切概率法。实际应用中，许多作者不考虑应用的前题条件，均使用未校正的χ2 检验，从而导致结果不可靠。行×列表资料χ2 检验行×列表资料χ2 检验主要用于多个率或构成比的比较。但此时要求所有格子中理论频数小于5 的格子数少于总格子数的1/5。如果大于1/5 ，则相邻格子应删除或合并后再计算。此时若需了解具体那些率之间差异有统计学意义，就需进行χ2 分割来确定。

单向有序资料此类资料如果是比较组间治疗效果差异有无统计学意义，则应采用秩和检验。如果采用χ2 检验，仅表明各组的疗效构成差异有无统计学意义，因为此时只利用了每组构成比提供的信息，损失了有序指标提供的“等级”信息。这也是许多作者误用统计学方法的资料类型之一，需尤其注意。列联表资料χ2 检验此类资料特征为对同一组观察对象，分别观察其两种有序分类变量的表现，归纳成双向交叉排列的统计表，分析两个分类变量是否有相关联系的假设检验，采用行×列表χ2 检验。

4.2.3 相关性分析

如果需了解两变量有无相关性，或相关程度有多大，此时需作相关分析。相关分析应报告相关系数及对该相关系数所作的假设检验P 值。相关系数种类很多，选择时应根据指标类型来确定。如果是计量指标,则应选择Pearson 相关系数; 如果是等级指标，则应选择Spearman 相关系数。

4.2.4 结论的表述

首先要明确“P 值< 0.05”，习惯上称“显著”(significant) ，仅说明两组差异有统计学意义，并不能说明两组该指标相差很大，或在专业上有显著的(重要的)价值; 反之，P 值>0.05，习惯上称“不显著”(non significant) ，不应误解为相差不大，或一定相等，仅说明从统计角度考虑这两组差异无统计学意义。为了不与一般意义上的“显著”、“不显著”相混淆，许多统计学家主张作结论时不用“是否显著”一词，而用“差异有无统计学意义”。

此外，根据统计结果得出专业结论不能太绝对化，因为统计结论均是概率性的，不是绝对的肯定或否定，本次研究统计结果是阴性，如果增加样本含量，组间差异可能就有统计学意义了。

综上所述，不同的统计分析方法均有其应用条件和适用范围，实际应用时，必须根据科研设计类型及变量类型选择恰当的统计分析方法，同时注意检查结果解释和专业结论是否同时满足专业和统计学要求。切忌将t 检验、χ2 检验视为分析资料的“万能工具”，盲目套用，导致文章的科学性降低。