美文网首页SPSS统计分析
Logistic回归三部曲(1)

Logistic回归三部曲(1)

作者: dming1024 | 来源:发表于2019-05-23 22:28 被阅读17次

当因变量为计量资料时,可采用简单线性回归分析;当因变量为二分类时,可采用Logistic回归分析。广义上来说,Logistic回归也属于线性回归分析,主要用于简单的数据挖掘、研究疾病发生的危险因素上等。

我们平时接触到很多二分类变量。比如患者生死、是否发生癌症;日常生活决策中也都是二分类,比如今天是否要上班、中午是否要吃饭、她是否喜欢你?这里我们以一个例子,分三步来讲解Logistic回归分析:1,数据探索;2,回归分析;3,模型验证。


研究背景:我国是肝癌发生的大国,临床上对于肝癌的诊断与检测,主要是:1)通过检测血清标志物-甲胎蛋白(AFP),但是AFP的特异性、灵敏度都不高,据不完全统计约30%的肝癌患者AFP呈现阴性;2)影像学检测-超声或CT等,对肝癌诊断的符合率高达90%,尤其是CT检查,但是这种检查具有一定的辐射,长期监测会给患者身体恢复带了负担。

在2018年,国内一家体外诊断公司,联合7对miRNA建立Logistic模型,对肝癌患者的肿瘤发生发展进行检测,甚至宣传能够预测肝癌的发生,早于CT检测,简直interesting!他们首先是采用芯片技术筛选肝癌患者特异的分子标志物,然后建立Logistic回归模型,而后利用大样本优势资源对Logistic模型进行优化,目前该模型的特异性、灵敏度宣称都在85%以上。具体我就不展开讲啦,让我们来一起学习下这神奇的Logistic回归分析。


这里我同样‘编造了’199例数样本的据:假设入组199例肝病患者,其中99例为肝癌患者,100例为肝部疾病或其他疾病患者(总之,病理诊断不是肝癌患者),对患者的一般信息:性别,年龄,BMI指数,居住地、文化程度、婚姻状况进行统计,此外通过分子化学手段检测患者血清miR21,miR102,miR145,以及AFP浓度,如下:

首先需要明确我们分析过程中的变量信息:

1) 因变量:疾病的状态(status),为二分类变量,主要指是否有癌症。

2)自变量:性别为二分类资料,包括男,女;年龄、BMI指数、miR21、miR102、miR145、AFP均为计量资料;居住地区为多分类变量,包括农村、乡镇、城市;文化程度为多分类变量,包括小学及以下,初中,高中,大学及以上;婚姻状况为二分类变量,包括已婚,离婚。

3) 以因变量为分组信息,统计各自变量信息:

选择【分析】→【表】→【设定表】

199例患者的临床指标与是否发生癌症分组统计结果:

以“status”为分组信息,对发生癌症和未发生癌症患者的年龄、BMI、miR21,miR102、miR145以及AFP进行独立样本T检验(详细操作,可参考之前教程,这里就不赘述,当然也可以采用非参数检验进行分析),目的是为了分析两组的上述指标是否有统计学差异,也是回归分析过程中对自变量进行初步筛选的过程。

【输出文档】中的结果可以看出,除BMI指数外,两组患者的年龄、miR21、miR102、miR145以及AFP均存在显著差异(P<0.05)

以status为分组信息,对计数资料进行卡方检验,变量中的计数资料包括:患者性别,居住地区,文化程度以及婚姻状况。

【输出文档】出现自变量与因变量卡方检验的结果,我这里就展示一组卡方检验的结果,对两组患者的性别分布进行卡方检验发现,两组性别分布差异显著,其中男性发病率要显著高于女性。

通过卡方检验和t检验,最终我们会得到这个初步的统计分析结果

以上都是在进行Logistic回归分析的初步探索工作,下一节我们讲述Logistic回归的详细分析过程与结果。转自“医学统计园”微信公众号,欢迎扫描二维码关注


相关文章

网友评论

    本文标题:Logistic回归三部曲(1)

    本文链接:https://www.haomeiwen.com/subject/apmizqtx.html