美文网首页此地古同R语言
R小姐:数据探索之数据质量分析

R小姐:数据探索之数据质量分析

作者: 鲨瓜 | 来源:发表于2018-11-24 16:39 被阅读0次

    广招兵马并非遣之攻城拔寨,必当择优汰劣,去其糟粕。

    如此军中尽是热血男儿,便攻无不克,战无不胜。

    数据质量分析中的缺失值便是如此,或删除、或替换、或插补。

    1

    缺失值分类

    统计学中将缺失数据分为三类:

    1.完全随机缺失

    某变量的缺失数据与其他任何观测或未观测变量都不相关。

    2.随机缺失

    某变量的缺失数据与其他观测变量有关,与自己未观测值不相关。

    3.非随机缺失

    不属于上述两种情况的数据便为非随机缺失。
    

    2

    总览缺失值

    #与缺失值处理相关的两个包
    install.packages('VIM')
    install.packages('mice')
    library('VIM')
    library('mice')
    
    #所有缺失值的个数
    sum(is.na(sleep))
    #所有缺失值占的比例
    mean(is.na(sleep))
    #以行为单位,不完整样本的个数
    sum(!complete.cases(sleep))
    #不完整样本的比例
    mean(!complete.cases(sleep))
    

    结果:

    sum(is.na(sleep))

    [1] 38

    所有缺失值占的比例

    mean(is.na(sleep))

    [1] 0.06129032

    以行为单位,不完整样本的个数

    sum(!complete.cases(sleep))

    [1] 20

    不完整样本的比例

    mean(!complete.cases(sleep))

    [1] 0.3225806

    3

    列表显示缺失值

    md.pattern(sleep) 真的是一行代码

    image

    4

    图表显示缺失值

    #计数列图
    aggr(sleep,prop=FALSE,numbers=TRUE,col=c('cornsilk','grey80'))
    
    image
    #显示缺失值的比例
    aggr(sleep,prop=TRUE,numbers=TRUE,col=c('cornsilk','grey80'))
    
    image

    识别缺失值的方法便是如此,下期介绍处理缺失值的方法。

    下期再见。

    你可能还想看

    等你很久啦,长按加入古同社区

    image

    相关文章

      网友评论

        本文标题:R小姐:数据探索之数据质量分析

        本文链接:https://www.haomeiwen.com/subject/swryqqtx.html