《追踪数据分析方法及其应用》是一部介绍追踪数据的分析方法的书,方法包括一元方差分析、多元方差分析、多层线性模型、潜变量增长曲线模型等方面的内容。由于学习的需要我只看了多层线性模型的部分,看之甚浅,请看了这篇文章的人批评指正。
一、问题
有时候,我们会拿到多个人在同一个维度不同时期的数据。比如一个班级的小学生,在3年级到6年级时“自我概念”这个指标的变化情况,把这些数据画成一个图,是杂乱无章的。
我们想知道,有没有一种方法,能够看到这些小朋友的整体变化是怎样的,是什么因素影响了整体变化。
二、追踪研究中的多层线性模型
在这里先提出一个假设,假设三年级到六年级的时间,个体自我概念随时间有线性发展的趋势。我们知道,用线性回归可以拟合出一个人、一个维度的变化趋势情况。那用同样的思想,进行两次拟合,是不是就可以把多个人“变成”一个人,然后再分析,就可以拟合得到这个维度的变化趋势呢?
针对追踪研究所关心的两个问题,建立对应的两水平统计模型。
(1)第一水平模型
描述个体某一特征随时间的发展趋势,第一水平模型可以定义为:
其中代表第个学生的第年级所测量的自我概念的观测值,模型假设学生自我概念随着年级有线性变化的趋势。与传统回归方程相比,这个公式中的截距参数和斜率参数是随个体变化的随机变量。表示第一水平随机测量的误差。多层线性模型是服从均值为0方差为一个定值的正态分布。
这个模型,把所有学生的特征变化用一个公式表达了出来,把变化量集成在、和中。
(2)第二水平模型
在第一水平模型中,已经假设截距参数和斜率参数是随机变量,在第二模型模型中。我们需要分析这些发展参数是否存在个体之间的差异,假如存在差异,能不能在个体层面上,用个体的特征变量来解释和预测这一差异。最简单的模型(零模型)不加任何预测变量:
其中,和表示截距和斜率的整体均值,用来描述总体情况的变化趋势。到这里,我们可以看到,我们需要的描述总体变化情况的变量,就是和。通常假设。
、分别表示第一水平模型中随机截距和斜率对应的方差, ,表示第一水平模型中随机截距和斜率对应的协方差。
如果对于上述第二水平模型的零模型,截距斜率的随机变量都显著,就说明截距和斜率存在显著的个体之间的差异,有必要进一步分析个体特征对个体之间差异的解释。一般将上述第二水平、不含任何预测变量的模型称为无条件增长模型,这一模型主要用来检验个体的增长趋势是否存在差异,是后面条件模型分析的基础。
假如加入预测变量,那么含有第二水平预测变量的模型可以表示为:
对于截距,各个变量的意义:
变量 | 意义 |
---|---|
表示第二水平预测变量取值为0时,第一水平截距的总体均值。比如在这个例子中,表示退缩行为得分为0的女生(性别中的0代表女生)在三年级时的自我概念的平均分 | |
表示在控制退缩行为这个变量是,男生对女生的截距差异,及男女在初始状态下(三年级)时的差异 | |
表示在控制性别影响时,退缩行为每变化一个单位,自我概念截距在初始状态(三年级)的差异 |
对于斜率,各个变量的意义:
变量 | 意义 |
---|---|
表示第二水平预测变量取值为0时,第一水平斜率的总体均值。比如在这个例子中,表示退缩行为得分为0的女生(性别中的0代表女生)在三年级时的自我概念的平均斜率 | |
表示在控制退缩行为这个变量是,男生对女生的变化速度的差异 | |
表示在控制性别影响时,退缩行为每变化一个单位,自我概念斜率的平均差异 |
、表示在控制性别和退缩行为后,第一水平模型中随机截距和斜率对应的方差, ,表示第一水平模型中随机截距和斜率对应的协方差。
三、多层线性模型的参数估计
多层线性模型的参数估计可以有多种方法,包括迭代广义最小二乘估计(LGLS)、限制性广义最小二乘估计(RIGLS)、贝叶斯估计法、马尔科夫链蒙特卡罗估计法、自助法等等。这里主要介绍极大似然估计法。
在多水平模型中,常用的极大似然估计的方法主要有两种:
(1)全息极大似然估计(FML)
全息极大似然估计在似然函数中同时包含固定部分参数和随机部分参数。
(2)限制极大似然估计(RML)
限制极大似然估计的似然函数只包含随机部分的参数,固定参数在EM(Expectation Maximum)算法的第二步参数估计过程中得到。
极大似然估计通过迭代过程估计参数值,常用的迭代算法是EM算法。极大似然估计的所有的性质都是渐进的,只有在大样本时极大似然估计的性质才近似成立,而小样本不一定成立。那么,多大才叫大?学者们的意见也不统一,有的说要100个以上(Long, 1997),有的说要不小于30(Snijders, Bosker, 1999)。
四、假设检验
对于多层线性模型,可以通过极大似然估计得到固定部分参数估计结果已经对应的标准误,对于固定部分参数的显著性检验,可以用参数估计值除以标准误,即进行检验(Wald检验),在大样本时近似服从标准正态分布,在较小样本时这一个统计量服从自由度为的分布,其中表示第二水平单元的个数,表示模型中预测变量的个数。
对于随机部分的参数检验,可以近似采用估计得到的方差与标准误的比值,用检验进行检验。但考虑到检验时基于正态假设前提下的检验,所以当样本方差的分布为偏态,尤其是方差较小的情况下,用检验的前提往往不能满足,因此我们通常用卡方检验:
其中为第组的回归系数的最小二乘估计,为整体的回归系数估计,为第组估计得到的样本方差。该卡方检验对应的自由度为,,其中表示第二水平单元的个数,表示模型中预测变量的个数。
参考文献
刘红云. 追踪数据分析方法及其应用[M]. 教育科学出版社, 2005.
网友评论