R小姐：数据探索之数据质量分析

作者: 鲨瓜 | 来源:发表于2018-11-24 16:39 被阅读0次

R小姐：数据探索之数据质量分析
数据探索 —— 数据质量分析
2018-10-18
R 数据质量分析①
商业数据分析案例：客户流失分析之—数据理解与数据准备
《Python数据分析与挖掘实战》读书笔记-数据探索
【数据分析】-001数据探索篇-数据质量分析
2019-02-12-数据分析与挖掘实战笔记1
【ggplot2绘图一：ggplot2原理】
非参数探索性空间数据分析法（ESDA）笔记

广招兵马并非遣之攻城拔寨，必当择优汰劣，去其糟粕。

如此军中尽是热血男儿，便攻无不克，战无不胜。

数据质量分析中的缺失值便是如此，或删除、或替换、或插补。

1

缺失值分类

统计学中将缺失数据分为三类：

1.完全随机缺失

某变量的缺失数据与其他任何观测或未观测变量都不相关。

2.随机缺失

某变量的缺失数据与其他观测变量有关，与自己未观测值不相关。

3.非随机缺失

不属于上述两种情况的数据便为非随机缺失。

2

总览缺失值

#与缺失值处理相关的两个包
install.packages('VIM')
install.packages('mice')
library('VIM')
library('mice')

#所有缺失值的个数
sum(is.na(sleep))
#所有缺失值占的比例
mean(is.na(sleep))
#以行为单位，不完整样本的个数
sum(!complete.cases(sleep))
#不完整样本的比例
mean(!complete.cases(sleep))

结果：

sum(is.na(sleep))

[1] 38

所有缺失值占的比例

mean(is.na(sleep))

[1] 0.06129032

以行为单位，不完整样本的个数

sum(!complete.cases(sleep))

[1] 20

不完整样本的比例

mean(!complete.cases(sleep))

[1] 0.3225806

3

列表显示缺失值

md.pattern(sleep) 真的是一行代码

image

4

图表显示缺失值

#计数列图
aggr(sleep,prop=FALSE,numbers=TRUE,col=c('cornsilk','grey80'))

image

#显示缺失值的比例
aggr(sleep,prop=TRUE,numbers=TRUE,col=c('cornsilk','grey80'))

image

识别缺失值的方法便是如此，下期介绍处理缺失值的方法。

下期再见。

你可能还想看

等你很久啦，长按加入古同社区

image

网友评论

本文标题：R小姐：数据探索之数据质量分析

本文链接：https://www.haomeiwen.com/subject/swryqqtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

R小姐：数据探索之数据质量分析

所有缺失值占的比例

以行为单位，不完整样本的个数

不完整样本的比例

相关文章

R小姐：数据探索之数据质量分析

数据探索 —— 数据质量分析

2018-10-18

R 数据质量分析①

商业数据分析案例：客户流失分析之—数据理解与数据准备

《Python数据分析与挖掘实战》读书笔记-数据探索

【数据分析】-001数据探索篇-数据质量分析

2019-02-12-数据分析与挖掘实战笔记1

【ggplot2绘图一：ggplot2原理】

非参数探索性空间数据分析法（ESDA）笔记

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读

此地古同

R语言