一般情况下,当因变量是连续性变量时,我们常使用线性回归分析自变量与因变量的关联;而当因变量是分类变量时,可考虑采用Logistic回归分析。
Logistic回归属于概率型非线性回归,究其本质,是用逻辑函数把线性回归的结果(-∞,∞)映射到(0,1),所以它是一种广义的线性回归分析模型,虽然名字里有回归,但其实是分类模型。
一、单因素和多因素Logistics回归
根据纳入回归模型的自变量个数不同,可将Logistic回归分为单因素和多因素。
(1)单因素Logistic回归(又称简单Logistic回归),指在模型中只包含一个自变量的情况,用来评估单一因子对结果概率的影响大小和方向。例如只关注肥胖如何影响患冠心病的概率。
(2)多因素Logistic回归即包含两个及以上的自变量的情况,可同时考察多个因素对结果变量的影响,因为现实中某一个疾病的发生往往是多变量共同作用所致。例如同时考虑肥胖、吸烟、工作压力、基因等多个因素对冠心病患病概率的影响。
二、二元和多元Logistics回归
根据因变量的不同,可将Logistic回归分为二元logistic回归和多元Logistic回归。
(1)二元logistic回归模型的因变量Y是二分类变量,如有病与无病,其取值常编码为0和1。
(2)多元Logistic回归顾名思义,因变量Y是多分类变量,进一步分为有序多分类(如疾病轻、中、重)和无序多分类(如不同中医证型)。
三、SPSS操作
例1:在肝硬化影响因素分析中,因变量为分组(健康组vs肝硬化组),采用二元logistic回归(单因素+多因素)
(1)分析——回归——二元logistic回归
(2)协变量里只有年龄,只关注年龄对肝硬化的影响,此时为单因素二元logistic回归
(3)同时分析年龄、N-糖基化Peak1%、Peak2%的影响,此时为多因素二元logistic回归
可以看出,在单因素和多因素中,年龄的影响差异很大。
例2:在原发性肝癌影响因素分析中,因变量为分组(健康组vs肝硬化组vs原发性肝癌),采用多元logistic回归(单因素+多因素)
(1)单因素只考虑年龄
(2)多因素,同时考虑N-糖基化Peak1%、Peak2%的影响
一般在实际分析中,选择单因素或多因素是由研究目的来决定的,往往只是筛选自变量或控制协变量的过程,而二元或者多元Logistic回归直接由因变量的类型决定。
网友评论