美文网首页
数据预处理——交叉变量校验

数据预处理——交叉变量校验

作者: R语言与SPSS学习笔记 | 来源:发表于2021-03-14 10:02 被阅读0次

上次介绍数据校验时(https://mp.weixin.qq.com/s?__biz=MzIwMDIwNTIyNQ==&mid=2247484341&idx=1&sn=a7081aa8874fef99d6685cf9981f99b4&chksm=9681f573a1f67c656f93cea9c4772ef659f72097c08b2fa116394f3db1964c2454cea8d67344&token=1281594893&lang=zh_CN#rd),是作单个变量的数据校验。如果逻辑校验需要同时涉及到几个变量,则需要用到交叉变量校验(cross variable validate)。例如,数据集中包含变量“出生日期”“就诊日期”“死亡日期”,由逻辑判断可知,出生日期在就诊日期之前或相同,并且就诊日期在死亡日期之前或相同,所以一个个案记录的上述关系违反其一,必定有逻辑错误。通过交叉变量校验即可快速找出。SPSS实现过程如下:

1.打开数据,注意度量标准最好手动设置。通过观察,可以看到第3、4个个案是存在逻辑错误的。

2.定义交叉变量校验规则。这个规则指的是不符合逻辑的规则。逻辑表达式里的“出生日期 > 就诊日期 | 就诊日期 > 死亡日期”的“|”代表“或者”,此处这样写逻辑表达式,意思就是说,如果符合“出生日期 > 就诊日期”或者“就诊日期 > 死亡日期”其中一个,就会判定为不符合逻辑

3.校验数据:

4.结果解读:可以看到,第3、4个个案已经被识别出来。在数据集中,变量CrossVarRule1变量值为1,表示该个案为逻辑错误的无效个案。注意到交叉变量规则里,违规数是2,规则表达式就是我们刚才定义的。此处的违规个案,其实是符合我们定义的规则的个案。这里显示得比较混乱,容易让人误解为我们定义的规则是符合逻辑的,其实相反。

5.补充说明:细心的读者可能发现了,第二个个案的出生年份为1850年,这是有逻辑错误的。假如定义出生日期不可能早于1920年1月1月,如果需要把它也识别出来,想想如何写逻辑表达式?

欢迎大家关注我的公众号

统计练习题

并回复“cross validate”可获得今天的数据

☆ END 

相关文章

  • 数据预处理——交叉变量校验

    上次介绍数据校验时(https://mp.weixin.qq.com/s?__biz=MzIwMDIwNTIyNQ...

  • 人工神经网络-R

    1、数据预处理 代码: 我们首先要对数据进行分析,确定自变量和因变量,然后导入数据,提取需要的变量,对值是文本的变...

  • 商业分析 | 天猫优惠券使用预测

    ----目录----一、数据预处理二、变量选择三、建模四、解读业务 数据源包括25317条用户数据,有年龄、职业、...

  • elementUI中动态表单的校验

    首先需要再data中定义表单变量 循环的表单数据 表单的校验规则如下 通过给每一个循环的表单数据添加对应的校验规则...

  • 数据分析ETL概要(Kettle-PDI在win系统下的安装)

    这里就作个记录吧。特别是数据转换时,包括预处理,清洗,校验等流程,还有高阶的维度,聚合等。 ETL基础概念 - 背...

  • 1219周六:完成现有任务和重要点总结

    1、数据预处理 2、特征处理 3、模型定义 (模型保存、加载) 4、训练过程 5、评估数据 6、变量保存 revi...

  • 机器学习要点汇总

    数据预处理 数据清洗 离散化对于在连续性随机变量上计算信息熵,需要将变量离散化。其概率密度函数f(x)的定义为:!...

  • API 安全机制 | 数据校验

    数据校验 接口层面; 数据库层面; 数据校验 | 接口层面 | 代码 数据校验 | 数据库层面 | 代码

  • Kettle 实战之 (3) 数据校验

    实例 增加节点-数据校验 1、从【校验】节点分类中选择【数据校验】 2、设置校验规则点击【增加校验】,增加校验规则...

  • spss学习8--交叉表分析

    多个变量在不同取值情况下的数据分布情况 1.概念: 交叉表;行列交叉的分类汇总表 交叉表分析:用于分析俩个或俩个以...

网友评论

      本文标题:数据预处理——交叉变量校验

      本文链接:https://www.haomeiwen.com/subject/vhhqcltx.html