数据集中往往存在缺失值,在进行数据分析前需要了解数据的缺失值情况。R语言中的一些基本函数可用于查询缺失数据,另外还有一些第三方包可用于查询和处理数据缺失。
基本的缺失值查询可以通过is.na()和complete.cases()函数,当存在缺失值NA或者NAN时is.na()返回TRUE, complete.cases()则返回FALSE。

mice包函数md.pattern(x),可以以矩阵或者数据框的形式展示缺失值。输出的表格中,1表示列中不存在缺失值,0表示存在缺失值。返回的第一列表示缺失值模式的实例个数,最后一列表示各模式有缺失值的变量个数,最后一行表示每列缺失值的个数,整个表格最右下角的值表示总的缺失值个数。

除此之外,VIM包中的aggr函数可以对缺失值进行可视化探索。参数prop为TRUE图形中显示缺失值比例, 为FALSE显示缺失值个数, 默认combined = FALSE,输出两张图,左侧为缺失值数量的柱状图。



参考:
————————————————
版权声明:本文为CSDN博主「Kingsley_W」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/wltom1985/article/details/79200245
网友评论