缺失值

作者: 巴拉巴拉_9515 | 来源:发表于2017-06-17 17:06 被阅读0次
    夜夜夜夜

    01、缺失值快速定位

    格式:要定位的列[空缺的列]

    > full$PassengerId[is.na(full$Fare)]
    [1] 1044
    > full$Name[is.na(full$Fare)]
    [1] "Storey, Mr. Thomas"
    
    缺失值快速定位

    02、缺失值可视化

    VIM包中提供了能可视化数据集中缺失值模式的函数:aggr函数

    >a<-full$PassengerId[is.na(full$Age)]  
    >length(a)
    [1] 263       #263个缺失值
    
    #可视化
    library(VIM)  
    aggr(full$Age,prop=FALSE,numbers=TRUE)  
    

    红色表示缺失值的情况,蓝色表示非缺失值的情况


    缺失值263个

    03、数据集缺失值

    使用概率表示缺失状况

    library(VIM)  
    aggr(full,prop=TRUE,numbers=TRUE)
    

    红色表示缺失值的概率,有两个变量缺失值比较严重。


    数据集缺失情况

    检验一下
    (1)survived变量缺失值有多少?

    >a<-full$PassengerId[is.na(full$Survived)]  
    >length(a)
    [1] 418         #418个缺失值
    

    (2)age变量缺失值有多少?

    >a<-full$PassengerId[is.na(full$Age)]  
    >length(a)
    [1] 263       #263个缺失值
    

    (3)Carbin变量是否真的没有缺失值?

    >a<-full$PassengerId[is.na(full$Carbin)]  
    >length(a)
    [1] 0
    

    相关文章

      网友评论

          本文标题:缺失值

          本文链接:https://www.haomeiwen.com/subject/tlcbqxtx.html