1、什么是一般线性模型呢?
(1)t检验用于两组均值比较?
(2)方差分析用于多组均值比较?
(3)线性回归则用于自变量对因变量的影响分析?
粗粗一看,三者之间貌似没有联系!
但它们却在同一个模型下面,这就是一般线性模型(General Linear Model)。
一般线性模型并不是一个具体的模型,而是多种方法的统称,像t检验、方差分析、线性回归等都从属于一般线性模型的范畴。
2、揭开一般线性模型的面纱?
(1)左侧为两座城市空气质量指数(AQI)的比较,中间为不同心功能分级的精神健康得分比较,右侧为不同温度对某病发病率的影响。
(2)对于上述三份数据,应该用什么分析手段呢?
分别用t检验,方差分析,线性回归
3、数据转换
image.png有没有恍然大悟的感觉?
左图第一列的1和2分别表示城市A和B,分别表示心功能分级的1级、2级和3级。
这三份数据有什么共同点呢?
第一,都有两个变量。而且研究目的基本可以统一概括为左列变量对右列变量的影响。
第二,根据研究目的,这3份数据都有一定的侧重,变量有主次之分,如分析的是温度对发病率的影响(而不是反过来)、心功能分级对精神健康得分的影响(而不是反过来)等。也就是说,两个变量可以分为结果变量(右列)和影响因素(左列)。
第三,结果变量(AQI 、精神健康得分、发病率)都是定量的而不是分类的,影响因素既有定量的(如温度),也有分类的(如二分类的城市、三分类的心功能分级)。
事实上,上述三点也就是一般线性模型的特点。一般线性模型的基本形式为:
image.png
其中,y称为因变量,也叫反应变量、结局变量等;X1,X2,·· · ,Xp称为自变量,也叫解释变量、预测变量等。
模型中 image.png 表示截距,反映了当自变量=0时y的均值;而β1,2,3,4等表示斜率,反映了自变量每增加1个单位,y值的变动大小。
4、一般线性模型的用法
在一般线性模型中,因变量必须是定量的,而自变量则既可以是定量的,也可以是分类的。自变量的不同形式会导致一般线性模型退化为不同的具体方法,具体对应的各种方法如下:
image.png
5、一般线性模型的理解
(1)首先,将左侧数据做一个t检验,结果如下:
(2)我们再用一般线性模型来分析,将城市(分别将城市A和B赋值为1和2)作为分类自变量,以AQI作为因变量,结果如下:
image.png
(3)二分类自变量的不同模型比较分析
其实我们发现,截距=水平1,斜率项=城市2与城市1的均值差,斜率项的P值等于t检验的P值。
为什么会这样呢?
因为此处将城市作为分类变量纳入模型,相当于一个虚拟变量(这个之前粗粗提过,实际上可以理解有n个变量,通过某一个变量标准化,最后形成n-1个虚拟变量)。
对于一个二分类变量,尽管我们将其赋值为1和2,但当作为虚拟变量纳入模型的时候,都变成了0和1(分别对应我们对其赋的值1和2)。
重点理解的一句话
由于截距项表示自变量=0时的值,而自变量=0也就等同于城市A, 因此截距项对应的是城市A的均值。(想象下,我认为这个好理解)
斜率表示自变量每增加1个单位时y的变化值,对于二分类的0-1变量而言,增加1个单位,也就是从0到1的变化。而0表示城市A,1表示城市B, 因此,对于虚拟变量,斜率也就是城市B与城市A的均值差。(这里注意0和1是分类变量,但是我们可以理解为数值变量,差就为1,均值差/1就是斜率了)
强调一点 此处不要把自变量作为数值变量,要作为分类变量来计算。(要不结果会很不一样)
(4)多分类自变量的不同模型比较分析
其实,本质与二分类相同,虚拟变量增加而已。
中间数据的一般线性模型结果图
image.png
结果中,截距项表示心功能分级=1时的均值,“心功能分级[2], 表示心功能分级=2与心功能分级=1相比的差值为-10.01, "心功能分级[3],表示心功能分级=3与心功能分级=1相比的差值为-19.52。(虚拟变量是0,1,2)
网友评论