美文网首页
OLD:用于单变量和多变量异常值检测的SPSS宏

OLD:用于单变量和多变量异常值检测的SPSS宏

作者: 游侠_05f7 | 来源:发表于2020-09-22 13:26 被阅读0次

    目录

    0.简介

    1.下载与(Windows)安装

    2.使用

    3.引用

    4.参考文献

    0.简介

    包含了4中用于单变量异常值检测的方法,包括偏离均值的标准差(Z分数),极端观测值的百分比,箱型图和绝对中位差(median absolute deviation,MAD)。也含有2种多变量异常值的检测方法,包括马氏距离和两步聚类(SPSS官方方法的简化版)。

    1.下载与(Windows)安装

    读者可在公众号左下角通过“资料课程→课件&工具&数据→各类自制工具”进入下载。对SPSS单击鼠标右键,选择“以管理员身份运行”。

    通过“扩展”进入“安装定制对话框”

    选择安装包(后缀为“.spd”)。

    安装成功后,即会显示该对话框的位置。

    该对话框在“分析→描述统计”下。

    2.使用

    打开数据后才可进入对话框。以下列数据为例。

    通过“分析→描述→OLD v1.0”进入对话框。首选选入目标变量,然后进入“单变量”子对话框,勾选箱型图和绝对中位差方法,点击“确定”完成操作。

    对于箱型图的选择,将会照常输出SPSS的箱型图结果。

    此外,本宏最大的好处在于,会为大多数方法在数据集中提供判断结果变量。例如,此处Q1的箱型图结果就产生了相应的变量,并为这个变量的值提供了标签,以方便使用者进行快速的选择。

    在单变量的方法中,推荐使用绝对中位差方法(median absolute deviation,MAD)。使用MAD法进行异常值检测的主要理由有两个(Leys等,2013):第一,MAD法对样本量不敏感,即使是在8个样本的数据中依然可行;第二,MAD法对异常值不敏感,不会因为特殊的异常值而导致估计的严重偏差 。

    仍然使用本次数据,再次进入对话框,取消单变量选项后,选择勾选多变量中的两种方法,点击“确定”完成操作。

    对于SPSS官方提供的两步聚类方法,将会在output中输出相应的结果,我们只需要找到“异常个案索引列表”,其中便会提供异常个案的“Outlier_id”值,这在数据集中会有对应的变量可以查询。

    对于马氏距离方法,除了提供正常的马氏距离外,还提供了显著性检验结果。使用者可以通过马氏距离排序以判断哪些个案“更异常”(马氏距离越大越偏离群体),也可以通过“MD2_Outliers”的结果判断。后者提供了3个梯度的显著性结果,显著性越强,则该个案越偏离群体。

     

    3.引用

    英文:

    Zongman Qiu. (2020). OLD:a SPSS macro for univariate and multivariate outliers detection. Retrieved from https://www.researchgate.net/publication/344335637_OLDa_SPSS_macro_for_univariate_and_multivariate_outliers_detection

    中文:

    邱宗满. (2020). OLD:用于单变量和多变量异常值检测的SPSS宏. https://www.researchgate.net/publication/344335637_OLDa_SPSS_macro_for_univariate_and_multivariate_outliers_detection

    4.参考文献

    Leys, C., Ley, C., Klein, O., Bernard, P.,& Licata, L. (2013). Detecting outliers: Do not use standard deviationaround the mean, use absolute deviation around the median. Journal ofExperimental Social Psychology, 49(4), 764-766.

    相关文章

      网友评论

          本文标题:OLD:用于单变量和多变量异常值检测的SPSS宏

          本文链接:https://www.haomeiwen.com/subject/bzrwyktx.html