广招兵马并非遣之攻城拔寨,必当择优汰劣,去其糟粕。
如此军中尽是热血男儿,便攻无不克,战无不胜。
数据质量分析中的缺失值便是如此,或删除、或替换、或插补。
1
缺失值分类
统计学中将缺失数据分为三类:
1.完全随机缺失
某变量的缺失数据与其他任何观测或未观测变量都不相关。
2.随机缺失
某变量的缺失数据与其他观测变量有关,与自己未观测值不相关。
3.非随机缺失
不属于上述两种情况的数据便为非随机缺失。
2
总览缺失值
#与缺失值处理相关的两个包
install.packages('VIM')
install.packages('mice')
library('VIM')
library('mice')
#所有缺失值的个数
sum(is.na(sleep))
#所有缺失值占的比例
mean(is.na(sleep))
#以行为单位,不完整样本的个数
sum(!complete.cases(sleep))
#不完整样本的比例
mean(!complete.cases(sleep))
结果:
sum(is.na(sleep))
[1] 38
所有缺失值占的比例
mean(is.na(sleep))
[1] 0.06129032
以行为单位,不完整样本的个数
sum(!complete.cases(sleep))
[1] 20
不完整样本的比例
mean(!complete.cases(sleep))
[1] 0.3225806
3
列表显示缺失值
md.pattern(sleep)
真的是一行代码
4
图表显示缺失值
#计数列图
aggr(sleep,prop=FALSE,numbers=TRUE,col=c('cornsilk','grey80'))
#显示缺失值的比例
aggr(sleep,prop=TRUE,numbers=TRUE,col=c('cornsilk','grey80'))
识别缺失值的方法便是如此,下期介绍处理缺失值的方法。
下期再见。
你可能还想看
等你很久啦,长按加入古同社区
网友评论