美文网首页SPSSAU数据分析入门教学
疑问解答 | 数据质量异常该如何处理?

疑问解答 | 数据质量异常该如何处理?

作者: spssau | 来源:发表于2020-06-09 10:27 被阅读0次

    在使用SPSSAU进行分析时,有时会出现“数据质量异常”提示。这种情况会发生在很多分析方法上,但原因基本共通的。

    以下3个问题是常见的通用性问题,多数“数据质量异常”情况就是由这些问题所致:

    通用问题

    第一:异常的原因

    1)绝对共线性

    如果数据出现‘绝对共线性’,比如出现2个分析项之间出现相关系数值接近1(或接近1),即有完全的替代关系,但是却把2个分析项同时进行分析,则有可能出现异常现象。

    2)基本没有相关

    除此之外,如果说2项之间基本没有相关(相关系数接近0),但此2项同时在模型中出现,此时也很可能出现异常现象。当出现此类情况时,把相关系数接近1或0的项移出去,再次分析即可。

    3)样本量太少

    如果分析的样本量非常少,比如分析样本量仅10个,但模型中有20个分析项,这种情况很容易出现异常,因为样本量太少。如果样本量过少,首先需要查清楚原因,如果确实是样本量过少就需要加大样本,当然也可以从模型中移出一些项后分析尝试

    第二:异常的检验

    当出现数据异常时,通用有两种检查方法:

    一是使用相关分析查看相关系数情况(把出现异常的模型中所有分析项都做相关分析),这种方法对应检测分析项中是否存在绝对共线性或基本没有相关性。

    二是使用描述分析查看样本量,检查当前分析的样本量情况有多少,这种方法对应查看数据样本量是否过少(有可能数据有缺失,或者筛选等导致分析样本量非常少)。

    第三:其它

    如果数据做过虚拟哑变量设置,本应该留出一个参考项(即少放一项在模型中),但却把哑变量全部放到回归模型中,一般都会出现异常或者奇异矩阵等。

    关于哑变量问题,大家可以参考这两篇文章:

    SPSSAU:哑变量(虚拟变量)

    SPSSAU:什么是虚拟变量?怎么设置才正确?

    “数据质量异常”情况都可先检查以上3个通用问题,大部分情况下即可解决。

    除此之外,每个方法出现异常的原因也有所不同,下面会针对每个方法出现的原因进行说明。

    验证性因子分析、结构方程模型

    当出现质量异常时,首先排除通用问题,并进行处理。如果依旧出现数据质量异常,还有种原因导致:

    1)CFA及SEM分析一般只针对量表题,请检查数据是否为量表题

    2)同一个因子的分析项之间相关关系过弱

    除此之外,将同一个因子对应的项做相关分析,如果发现某两项之间的相关性过弱(比如相关系数小于0.2),把其中一项从模型中移除出去,再次进行分析即可。

    3)MI调整过度

    MI调整是指结合MI值对分析项之间建立协方差关系(即相关关系),比如MI值大于10时建立协方差关系,此过程为内部自动建模过程。有可能出现建立的协方差关系过多导致模型无法收敛拟合。此时建议把标准放宽尝试即可。

    MI调整

    路径分析

    当出现质量异常时,首先检查通用问题,并进行处理。如果依旧出现数据质量异常,还有种原因导致:

    MI调整是指结合MI值对分析项之间建立协方差关系(即相关关系),比如MI值大于10时建立协方差关系,此过程为内部自动建模过程,其目的仅仅在于对模型进行优化。有可能出现建立的协方差关系过多导致模型无法收敛拟合。此时建议把标准放宽尝试即可。

    二元Logit回归

    当出现质量异常时,首先排除通用问题,并进行处理。如果依旧出现数据质量异常,还有种原因导致:

    对因变量Y做频数分析,查看频数分布情况,如果出现某项的频数接近0个(比如仅2个),此类数据并不适合进行二元Logit回归,因为数据分布极其不均匀,建议改用其它方法。

    有序Logit回归

    当出现质量异常时,首先检查通用问题,并进行处理。如果依旧出现数据质量异常,还有种原因导致:

    查看是否选中平行性检验,平行性检验对数据质量要求相对较高,有可能模型不收敛因此无法进行平行性检验,此时建议改用多分类Logit回归。

    另外,当出现‘奇异矩阵’提示时,此类情况是由于严重共线性,即相关系数接近1所致;具体原因上很可能是样本量太少(比如仅10个样本但却有20个分析项),也或者虚拟哑变量问题设置不当所致。

    多分类Logit回归

    当出现质量异常时,首先检查通用问题,并进行处理。如果依旧出现数据质量异常,还有种原因导致:

    对因变量Y做频数分析,查看频数分布情况,如果出现某项的频数接近0个(比如仅2个),因变量各项的分布严重不均匀导致模型不收敛出现异常,建议使用数据处理里面的数据编码,对组别进行合并,当然也可以筛选出分布较为均匀的组别后,再次进行分析。

    另外,当出现‘奇异矩阵’提示时,此类情况是由于严重共线性,即相关系数接近1所致;具体原因上很可能是样本量太少(比如仅10个样本但却有20个分析项),也或者虚拟哑变量问题设置不当所致。

    双因素方差、三因素方差、多因素方差、协方差

    当出现质量异常时,首先检查通用问题,并进行处理。如果依旧出现数据质量异常,还有种原因导致:

    查看自己的数据是否为实验或类实验数据正交设计数据等,通常情况下双因素,三因素,多因素方差分析都是针对实验或类实验,也或者正交设计数据等进行分析;因为此类数据会有非常强的‘平衡性’。其它的数据正常情况下是使用单因素方差(通用方法里面的方差)进行分析,重复做多次即可。

    重复测量方差

    当重复测量方差出现质量异常时,首先按照通用问题进行查看(即做相关分析,检查分析项之间是否有出现1,或者0),以及检查样本量是否过少(比如小于分析项的个数)等,并且进行处理后再次分析。

    如果依旧出现数据质量异常,多数情况下是由于数据格式不对所致,SPSSAU支持long-format数据,具体可通过此页面(或对应的帮助手册)查看数据格式例子。

    https://spssau.com/front/spssau/helps/otherdocuments/methodsdataformat.html

    面板模型

    当面板模型出现质量异常时,首先按照通用问题进行查看(即做相关分析,检查分析项之间是否有出现1,或者0),以及检查样本量是否过少(比如小于分析项的个数)等,并且进行处理后再次分析。

    如果依旧出现数据质量异常,多数情况下是由于数据格式不对所致,具体可通过此页面(或对应的帮助手册)查看数据格式例子。

    https://spssau.com/front/spssau/helps/otherdocuments/methodsdataformat.html

    总结来说,分析前一定先确保自己的数据真实、可靠,这是最关键的。

    出现“数据质量异常”的情况,先检查数据间的相关性及样本量是否符合分析需要。其次查看具体的分析方法,对应的解决办法。

    以上就是本次分享的内容,更多干货内容登录SPSSAU查看。

    END

    /SPSSAU快速入门指南/

    SPSSAU:数据格式 | 如何正确整理你的数据格式?

    SPSSAU:数据管理 | 这些数据管理功能,希望你一定学会。

    SPSSAU:问卷质量 | 如何提高问卷收集数据的质量?

    SPSSAU:方法选择 | 如何快速选出正确分析方法?

    相关文章

      网友评论

        本文标题:疑问解答 | 数据质量异常该如何处理?

        本文链接:https://www.haomeiwen.com/subject/pkhgzhtx.html