目 录
1 安装
以Win 10系统和SPSS 26版为例。对SPSS点击鼠标右键,选择“以管理员身份运行”。
通过“扩展→使用程序→安装定制对话框”进入安装界面。
选择后缀名为“.spd”的目标文件,点击打开。
随后,SPSS提示安装成功,并显示对话框所在的菜单位置。之后,便可以在“转换”菜单下找到本扩展插件。
插件压缩包内自带名为“data.sav”的数据,共包含50个个案与7个变量。本手册的案例均使用此数据。
3 总分
本功能支持:1)语言选择。
许多领域都存在对多个变量计算总分的需求,特别是在以问卷为主要研究工具的领域,量表总分的计算更是令人感到繁琐的问题。
对于变量 至变量 ,其总分 为:
假设A1与A2为需要计算总分的变量。进入对话框后,参考下图进行选择。
随后,SPSS生成以“SUM_”为前缀的总分变量。
根据语言选择,该变量生成中文的变量标签。
4 平均分
本功能支持:1)语言选择。
平均分主要用于问卷调查领域中,量表分数的计算。
对于变量 至变量 ,其平均分 为:
假设A1与A2为需要计算平均分的变量。进入对话框后,参考下图进行选择。
随后,SPSS生成以“MEAN_”为前缀的新变量。
根据语言选择,该变量生成中文的变量标签。
5 均值中心化
本功能支持:1)多变量同时转换;2)分组中心化;3)语言选择。
每一个连续变量都会存在平均值(假设为 ),均值中心化表示将该变量向左平移 个单位,使均值为0。
对于连续变量 ,有 至 的n个数据,其变量均值 为:
而均值中心化后的新变量 为:
5.1 均值中心化
假设B1为需要均值中心化的变量。进入对话框后,参考下图进行选择。
随后,SPSS生成以“MC_”为前缀的中心化变量。
根据语言选择,该变量生成中文的变量标签。
5.2 分组中心化
若数据来自于异质性较大的群体,需要进行分组分析,则可以选择使用分组中心化。
假设B1为需要均值中心化的变量,E1为分组变量。参考下图进行选择。
随后,SPSS生成以“GMC_”为前缀的分组中心化变量。
根据语言选择,该变量生成中文的变量标签。
6 标准化
本功能支持:1)多变量同时转换;2)分组标准化;3)语言选择。
标准化也称为z转换,指将原变量转换为均值为0、标准差为1的新变量,便可结合正态分布对个案分数进行解读。标准化可以看做是中心化的进一步操作,将中心化变量除以变量自身的标准差即可得到标准化变量。
对于均值为 、标准差为 的变量 ,其标准化后的变量 为:
6.1 标准化
假设B1为需要标准化的变量。进入对话框后,参考下图进行选择。
随后,SPSS生成以“STD_”为前缀的标准化变量。
根据语言选择,该变量生成中文的变量标签。
6.2 分组标准化
若数据来自于异质性较大的群体,需要进行分组分析,则可以选择使用分组标准化。
假设B1为需要标准化的变量,E1为分组变量。参考下图进行选择。
随后,SPSS生成以“GSTD_”为前缀的分组标准化变量。
根据语言选择,该变量生成中文的变量标签。
7 分组
本功能支持:1)多变量同时转换;2)在群组内分组;3)分组编号反向;4)语言选择。
本功能核心为将连续变量划分为两组或三组,可使用预设数值进行分组,或使用自定义数组进行分组:
分组功能
分组
组别切割点
组别编码
二分
均值
≥均值为1,其余为0
中位数
≥中位数为1,其余为0
自定义
≥自定义值为1,其余为0
三分
16、84百分位数
≥84分位数为2,<16分位数为0,其余为1
-1、+1标准差
≥+1标准差为2,<-1标准差为0,其余为1
自定义
≥高值为2,<低值为0,其余为1
7.1 二分组
假设B1为需要进行二分组的变量,希望以均值作为切割点,使≥均值的个案编码为1,其余为0。参考下图进行操作。
随后,SPSS生成以“GROUP_”为前缀的分组变量。
根据语言选择,该变量生成中文的变量标签与值标签。
7.2 三分组
假设B1为需要进行三分组的变量,希望以16、84百分位数作为切割点,将其分为三组。参考下图进行操作。
随后,SPSS生成以“GROUP_”为前缀的分组变量。
根据语言选择,该变量生成中文的变量标签与值标签。
7.3 反向分组
假设B1为需要进行二分组的变量,希望以中位数作为切割点,将其分为两组,并且高分组编码为0,低分组编码为1。参考下图进行操作。
随后,SPSS生成以“GROUP_”为前缀的分组变量。
根据语言选择,该变量生成中文的变量标签与值标签。
7.4 群组内分组
若数据来自于异质性较大的群体,需要进行分组分析,则可以选择使用群组内分组。需注意的是,群组内分组功能只能在非自定义分组中执行。
假设B1为需要进行二分组的变量,希望以中位数作为切割点,将其分为两组,并且高分组编码为0,低分组编码为1。同时,用以标识不同样本的群组变量为E1。可参考下图进行操作。
随后,SPSS生成以“GGROUP_”为前缀的分组变量。
根据语言选择,该变量生成中文的变量标签与值标签。
8 缩放
本功能支持:1)多变量同时转换;2)分组缩放;3)语言选择。
在连续数据的处理中,有时候研究者会想要将数据转换成更容易理解的分数,例如将任意取值范围的连续数据转换至 或 的范围。在这个过程中,可能需要对数据同时进行平移(加上或减去常数)与缩放(乘以或除以常数)
对于取值在 之间的连续变量 ,可以使用以下公式将其转换 的任意范围:
插件内置三个缩放范围,分别为 、 和 ,读者也可自定义范围。
8.1 自定义缩放范围
假设B1为需要进行缩放的变量,准备将其缩放至 。可参考下图进行操作。
随后,SPSS生成以“RES_”为前缀的新变量。
根据语言选择,该变量生成中文的变量标签。
8.2 分组缩放
若数据来自于异质性较大的群体,需要进行分组分析,则可以选择使用分组缩放。需注意的是,分组缩放功能只能在非自定义范围中执行。
假设B1为需要进行缩放的变量,而E1为分组变量,目标是在E1的两个分组内将B1分别缩放为 。可参考下图进行操作。
随后,SPSS生成以“GRES_”为前缀的新变量。
根据语言选择,该变量生成中文的变量标签。
9 反向
本功能支持:1)多变量同时转换;2)分组反向;3)语言选择。
变量的内涵总是与计分方式相关,假如将计分方式颠倒(例如1-5点计分颠倒为5-1点计分),则变量的含义将完全相反。也有许多变量一开始便以反向题出现。譬如,问卷调查领域所使用的量表就经常包含反向题,这要求使用者提前将其转为正向再进行后续分析。
一个1-5点计分的量表,其分数在正向转换后,应该有1分变成5分,以此类推。然而,假如将原变量加上负号,也可以使变量在后续的分析中(譬如回归分析)起到正向化的效果。因此,需要额外指定反向的方法。
本功能提供两种反向方法,第一种为自定义方法,适合用于问卷数据;第二种为自动反向。对于取值范围在 的变量 ,自动反向使用以下公式
上述公式假设当前变量取值范围即变量实际范围,然而,问卷数据里经常出现意外情况。譬如问卷数据为1-5点计分,但是在收集回来的数据里没有个案填1,只有2、3、4与5。如果使用上述公式,则2分的个案将计为5分。这是不合理的,也会导致后续的总分计算出错。对于问卷数据,建议使用自定义方式进行反向,手动指定变量取值范围的上下限。
9.1 自定义反向
假设A1为需要进行反向的变量,属于1-5点计分。可参考下图进行操作。
随后,SPSS生成以“REV_”为前缀的新变量。
根据语言选择,该变量生成中文的变量标签。
9.2 分组反向
若数据来自于异质性较大的群体,需要进行分组分析,则可以选择使用分组反向。需注意的是,分组反向功能只能在自动反向时执行。
假设B1为需要进行反向的变量,E1为分组变量。可参考下图进行操作。
随后,SPSS生成以“GREV_”为前缀的新变量。
根据语言选择,该变量生成中文的变量标签。
10 经典正态转换
本功能支持:1)多变量同时转换;2)语言选择。
许多分析技术要求数据符合正态分布,但现实数据又经常无法满足这个条件,于是统计学家们提出将数据进行转换以接近正态分布。常见的非正态分布与对应转换方法见下图:
以上转换方法来自于Tabachnick和Fidell(2013),以及Pallant(2011)。在本插件中已经实现上述转换的自动化,故不再列出转换公式。值得一提的是,上述转换中针对右偏的方法大都要求变量数值不能为0或负数,否则应先对变量进行校正,通过加上一个常数对其进行平移,使其最小值为1。如果读者手动进行转换则注意此问题,而使用本插件时,会自动进行校正,无需担心。
假设B1为需要进行正态转换的变量,需对其先进行偏度判定。通过“分析→描述→频率”进入对话框,选入B1并输出带正态曲线的直方图。
随后,SPSS输出B1的直方图,显示为右偏。
确定变量分布后,进入本插件,参考下图进行操作。一般而言,建议同时进行多种正态转换,选择效果最好的一个。
随后,SPSS生成以“NORM”与“(数字)_”为前缀的新变量。
根据语言选择,该变量生成中文的变量标签。
读者可以对转换后的变量进行探索,以确定最终使用哪种转换方法生成的结果。
本功能支持:1)特定组的Lambda测试与转换;2)语言选择。
Box-Cox主要用于确定因变量的最佳转换,同时拟合线性回归模型。Box-Cox使用以下公式对变量 进行转换:
即Lambda。此转换要求 必须大于0,当 小于0时,Box和Cox(1964)提供了另外的校正公式:
对于后者,保证 。换言之,校正公式总是先将原变量平移至最小值大于0后,再进行Box-Cox转换。在本插件中,对于小于0的 ,总是将其校正到最小值为1。
对于同一个变量可以有不同的Lambda值进行转换,故一般先对变量的Lambda值进行大范围检测,以选择最优的Lambda值,这在本插件中可以自动化执行。常见的Lambda取值有2(平方)、1(不进行转换)、0.5(平方根)、0.333(立方根)、0.25(四次方根)、0(自然对数)、-0.5(倒数平凡根)和-1(倒数)。
测试Lambda值的语法改自Grüner[1],Grüner的版本现已上传至IBM的官方扩展仓库中。实际上,该语法源自更早的某位作者,但已不可考。在IBM官网上的官方记录中也存在类似版本[2]。
11.1 测试Lambda值
假设B1为需要Box-Cox转换的因变量,而A1与A2为自变量。参考下图进行操作。
在测试结果中,需重点关注的是“95%置信区间”下的结果。该结果中提供的Lambda值是使用最大似然法计算得到的可行范围。
11.2 测试特定组的Lambda值
若数据来自于异质性较大的群体,需进行分组分析,则可以测试特定组的Lambda值。
假设B1为需要Box-Cox转换的因变量,而A1与A2为自变量,而E1为样本分组,本次计划测试E1中值为0的组的Lambda值。参考下图进行操作。
在测试结果中,需重点关注的是“95%置信区间”下的结果。该结果中提供的Lambda值是使用最大似然法计算得到的可行范围。
以11.1的假设为基础,即B1为需要Box-Cox转换的因变量,而A1与A2为自变量。根据测试结果,Lambda值的可行范围在[0.2, 0.9]之间,Lambda为0.5时达到最优(Log-Likelihood=-239.240),故选定Lambda为0.5进行转换。参考下图进行操作(分组转换参考11.3)。
随后,SPSS生成以“BCOX_”为前缀的新变量。
根据语言选择,该变量生成中文的变量标签。
12 虚拟化
本功能支持:1)多变量同时转换。
虚拟化是指将多分类(3类及3类以上)变量转换成多个0与1取值的二分类变量,用以表示原先的每个具体分类。虚拟化主要用于回归分析中对多分类自变量的处理。虚拟化是最为大众所熟悉的多分类自变量处理方法,也称为指标法。经过此方法处理得到的二分变量称为虚拟变量或哑变量。
假设存在分类变量“职业”,共5个类别。如果对其进行虚拟化,则会选择一个类别作为参照组(或称基准组,此处为“职业1”),使用其余类别与之比较,产生N-1个新的虚拟变量(N为原变量类别数)。除去参照组,新的虚拟变量中对应于原变量某一类的个案取值为1,非该类个案取值为0。因此,下表中的“虚拟2”至“虚拟5”为使用“职业1”作为参照组而产生的虚拟变量。以“虚拟2”为例,对应于原变量中的公务员一类全部取值为1,非公务员则取值为0。“虚拟3”至“虚拟5”以此类推。
分类变量与虚拟变量
职业
虚拟变量
虚拟1
虚拟2
虚拟3
虚拟4
虚拟5
1
1
0
0
0
0
1
1
0
0
0
0
2
0
1
0
0
0
2
0
1
0
0
0
3
0
0
1
0
0
3
0
0
1
0
0
4
0
0
0
1
0
4
0
0
0
1
0
5
0
0
0
0
1
5
0
0
0
0
1
含义
参照组
2 VS 1
3 VS 1
4 VS 1
5 VS 1
注:职业1=学生,职业2=公务员,职业3=个体户,职业4=军人,职业5=无业。
本功能对具有N个类别的分类变量将生成N个虚拟变量,以方便使用者自行选择参照组。此外,本功能要求分类变量采用连续整数进行编码。
假设C1为需要虚拟化的多分类变量,共3个类别。参考下图进行操作。
随后,SPSS生成“DUMMY_”为前缀、“_(数字)”为后缀的新变量。不提供变量标签。
本功能支持:1)多变量同时构造交互项;2)分组构造交互项;3)语言选择。
许多研究者在二元Logistic回归中喜欢使用Box-Tidwell方法构造交互项以检查自变量与Logit转换后的因变量是否存在非线性关系(Cohen et al., 2003)。
此方法需要对变量进行预处理,对连续变量先以自然常数 为底数求取对数值,而后使用对数值与原变量进行相乘,求取调节项。对于任意的连续变量 ,其调节项 为:
此方法要求 必须大于0。假如变量最小值小于或等于0,则可以对变量进行平移,使变量最小值为1。本功能将自动对最小值小于或等于0的变量进行上述校正。
此外,假如变量均值远大于标准化,会造成变量与二次项的相关系数过高,可能会使变量无法进入方程。本功能提供了额外的标准化选项以解决此问题。
假设变量B1为需要构造交互项的变量。参考下图进行操作。
随后,SPSS生成以“BOXT_”为前缀的交互项。
根据语言选择,该变量生成中文的变量标签。
13.2 分组构造Box-Tidwell交互项
若数据来自于异质性较大的群体,需要进行分组分析,则可以选择进行分组构造交互项。需要注意的是,只有在变量为非正数或使用标准化时,分组才有意义。
假设变量D1为需要构造交互项的变量,E1为分组变量。参考下图进行操作。
随后,SPSS生成以“GBOXT_”为前缀的交互项。
根据语言选择,该变量生成中文的变量标签。
14 排秩
本功能支持:1)多变量同时转换;2)分组排秩。
秩可理解为比赛名次,但有所区别。以下表为例,对分数进行从高到低的排秩(也可反向)。1号个案分数最高,秩为1;2-4号等3个个案分数一致,且按照名次应该占据第2、第3和第4,于是使用秩的总和除以个案数量作为秩,即(2+3+4)/3=3。因此,这3个个案的秩均为3。同理,5号和6号个案分数相同,其秩为(5+6)/2=5.5。
个案排秩(从高到低)
个案ID
分数
秩
1
89
1
2
87
3
3
87
3
4
87
3
5
85
5.5
6
85
5.5
7
84
7
8
83
8
9
76
9.5
10
76
9.5
14.1 最大值秩为1
假设变量B1为需要排秩变量,且计划将秩1赋予最大值。参考下图进行操作。
随后,SPSS生成以“R”为前缀的新变量。
此功能无法对变量标签语言进行设定。
14.2 分组排秩
若数据来自于异质性较大的群体,需要进行分组分析,则可以选择分组排秩。
假设变量B1为需要排秩的变量,且计划将秩1赋予最小值,E1为分组变量。参考下图进行操作。
随后,SPSS生成以“R_”为前缀的新变量。
虽然无法指定变量标签语言,但标签里会对分组变量进行说明。
15 指数
本功能支持:1)多变量同时转换;2)语言选择。
本功能可将变量作为底数,并指定幂以对变量进行指数转换。例如,对变量进行开方(0.5次幂)、平方(2次幂)或立方(3次幂)。
对于变量 ,进行 次幂转换后的 为:
需要注意的是,对于部分幂次的计算要求变量中不存在负数(如0.5次幂),本功能不会主动进行平移校正。
假设B1为需要进行指数转换的变量,计划转换成3次幂。参考下图进行操作。
随后,SPSS生成以“EXP_”为前缀的新变量。
根据语言选择,该变量生成中文的变量标签。
16 对数
本功能支持:1)多变量同时转换;2)语言选择。
本功能可将变量作为真数,并指定底数以进行对数转换。
对于变量 ,以 为底进行对数转换后的 为:
需要注意的是,本功能要求变量中不存在负数,且不会主动进行平移校正。
假设B1为需要进行对数转换的变量,计划以10为底。参考下图进行操作。
随后,SPSS生成以“LOG_”为前缀的新变量。
根据语言选择,该变量生成中文的变量标签。
17 绝对值
本功能支持:1)多变量同时转换;2)语言选择。
本功能将对变量取绝对值。对于变量 ,取绝对值后的 为:
假设D1为需要取绝对值的变量。参考下图进行操作。
随后,SPSS生成以“ABS_”为前缀的新变量。
根据语言选择,该变量生成中文的变量标签。
18 四舍五入为整数
本功能支持:1)多变量同时转换;2)语言选择。
本功能将对变量进行精确到个位数的四舍五入。换言之,小数部分将被舍去。另外,小数点后一位的数值假如≥5,则向个位数进一。
假设D1为需要四舍五入到整数的变量。参考下图进行操作。
随后,SPSS生成以“RND_”为前缀的新变量。
根据语言选择,该变量生成中文的变量标签。
Box, G. E. P., & Cox, D. R. (1964). An analysis of transformations. Journal of the Royal Statistical Society: Series B (Methodological), 26(2), 211–243. https://doi.org/10.1111/j.2517-6161.1964.tb00553.x
Cohen, J., Cohen, P., West, S. G., & Aiken, L. S. (2003). Applied multiple regression/correlation analysis for the behavioral sciences (3rd Ed). Routledge.
Pallant, J. (2011). SPSS survival manual:A step by step guide to data analysis using SPSS (4th Ed). Allen & Unwin.
Tabachnick, B. G., & Fidell, L. S. (2013). Using multivariate statistics (6th Ed). Pearson.
[1] http://gruener.userpage.fu-berlin.de/spss-dialogs.htm
[2] https://www.ibm.com/support/pages/box-cox-transformations-regression
网友评论