美文网首页
R语言数据清洗

R语言数据清洗

作者: aTrahir | 来源:发表于2018-08-17 21:58 被阅读0次

    以R语言内置数据集为例

    数据简单查看

    > data(mtcars) #加载mtcars数据集
    
    > dim(mtcars) #查看数据维度
    [1] 32 11
    
    > colnames(mtcars) #查看数据属性
     [1] "mpg"  "cyl"  "disp" "hp"   "drat" "wt"   "qsec" "vs"   "am"   "gear"
    [11] "carb"
    
    > str(mtcars) #查看数据类型和大致内容,显示有32个观测值和11个变量。str()函数一定程度包含了上面两个函数的功能
    'data.frame':   32 obs. of  11 variables:
     $ mpg : num  21 21 22.8 21.4 18.7 18.1 14.3 24.4 22.8 19.2 ...
     $ cyl : num  6 6 4 6 8 6 8 4 4 6 ...
     $ disp: num  160 160 108 258 360 ...
     $ hp  : num  110 110 93 110 175 105 245 62 95 123 ...
     $ drat: num  3.9 3.9 3.85 3.08 3.15 2.76 3.21 3.69 3.92 3.92 ...
     $ wt  : num  2.62 2.88 2.32 3.21 3.44 ...
     $ qsec: num  16.5 17 18.6 19.4 17 ...
     $ vs  : num  0 0 1 1 0 1 0 1 1 1 ...
     $ am  : num  1 1 1 0 0 0 0 0 0 0 ...
     $ gear: num  4 4 4 3 3 3 3 4 4 4 ...
     $ carb: num  4 4 1 1 2 1 4 2 2 4 ...
    
    > head(mtcars) #查看前几行数据,这里显示了6行。可以观察变量间是否有量纲差异。
                       mpg cyl disp  hp drat    wt  qsec vs am gear carb
    Mazda RX4         21.0   6  160 110 3.90 2.620 16.46  0  1    4    4
    Mazda RX4 Wag     21.0   6  160 110 3.90 2.875 17.02  0  1    4    4
    Datsun 710        22.8   4  108  93 3.85 2.320 18.61  1  1    4    1
    Hornet 4 Drive    21.4   6  258 110 3.08 3.215 19.44  1  0    3    1
    Hornet Sportabout 18.7   8  360 175 3.15 3.440 17.02  0  0    3    2
    Valiant           18.1   6  225 105 2.76 3.460 20.22  1  0    3    1
    
    > table(state.region) #查看因子型变量
    state.region
        Northeast         South North Central          West 
                9            16            12            13 
    

    缺失值处理

    > library(mice) #mice包中的 md.pattern() 函数,查看缺失值情况
    > data(sleep,package="VIM")
    > md.pattern(sleep) #0表示有缺失值,1表示没有缺失值
       BodyWgt BrainWgt Pred Exp Danger Sleep Span Gest Dream NonD   
    42       1        1    1   1      1     1    1    1     1    1  0
    9        1        1    1   1      1     1    1    1     0    0  2
    3        1        1    1   1      1     1    1    0     1    1  1
    2        1        1    1   1      1     1    0    1     1    1  1
    1        1        1    1   1      1     1    0    1     0    0  3
    1        1        1    1   1      1     1    0    0     1    1  2
    2        1        1    1   1      1     0    1    1     1    0  2
    2        1        1    1   1      1     0    1    1     0    0  3
             0        0    0   0      0     4    4    4    12   14 38
    #第一行表示“无缺失值”
    #第二行表示“除了Dream和NonD外无缺失值”,最左边代表此类实例的个数,最右边代表缺失值数目
    #最后一行给出每个变量中缺失值数目,和总缺失值数目
    
    > library(VIM)
    > aggr(sleep) #VIM包中的 aggr() 函数,图形化查看缺失值数量、占比
    
    > x <- as.data.frame(abs(is.na(sleep)))  #转换为0、1矩阵,缺失为1
    > y <- x[which(apply(x,2,sum)>0)]  #提取含缺失值的变量
    > cor(y)  #显示变量间相关系数
                 NonD       Dream       Sleep        Span        Gest
    NonD   1.00000000  0.90711474  0.48626454  0.01519577 -0.14182716
    Dream  0.90711474  1.00000000  0.20370138  0.03752394 -0.12865350
    Sleep  0.48626454  0.20370138  1.00000000 -0.06896552 -0.06896552
    Span   0.01519577  0.03752394 -0.06896552  1.00000000  0.19827586
    Gest  -0.14182716 -0.12865350 -0.06896552  0.19827586  1.00000000
    
    ######  删除缺失值  ######
    > md.pattern(na.omit(sleep))  # na.omit()函数删除包含缺失值的行
     /\     /\
    {  `---'  }
    {  O   O  }
    ==>  V <==  No need for mice. This data set is completely observed.
     \  \|/  /
      `-----'
    
    #####  多重插补  ######
    

    异常值

    #为什么这个代码块的颜色比上面好看???怎么设置???
    > summary(mtcars)  # 查看各个变量最小值、最大值、4分位数、均值
          mpg             cyl             disp             hp       
     Min.   :10.40   Min.   :4.000   Min.   : 71.1   Min.   : 52.0  
     1st Qu.:15.43   1st Qu.:4.000   1st Qu.:120.8   1st Qu.: 96.5  
     Median :19.20   Median :6.000   Median :196.3   Median :123.0  
     Mean   :20.09   Mean   :6.188   Mean   :230.7   Mean   :146.7  
     3rd Qu.:22.80   3rd Qu.:8.000   3rd Qu.:326.0   3rd Qu.:180.0  
     Max.   :33.90   Max.   :8.000   Max.   :472.0   Max.   :335.0  
          drat             wt             qsec             vs        
     Min.   :2.760   Min.   :1.513   Min.   :14.50   Min.   :0.0000  
     1st Qu.:3.080   1st Qu.:2.581   1st Qu.:16.89   1st Qu.:0.0000  
     Median :3.695   Median :3.325   Median :17.71   Median :0.0000  
     Mean   :3.597   Mean   :3.217   Mean   :17.85   Mean   :0.4375  
     3rd Qu.:3.920   3rd Qu.:3.610   3rd Qu.:18.90   3rd Qu.:1.0000  
     Max.   :4.930   Max.   :5.424   Max.   :22.90   Max.   :1.0000  
           am              gear            carb      
     Min.   :0.0000   Min.   :3.000   Min.   :1.000  
     1st Qu.:0.0000   1st Qu.:3.000   1st Qu.:2.000  
     Median :0.0000   Median :4.000   Median :2.000  
     Mean   :0.4062   Mean   :3.688   Mean   :2.812  
     3rd Qu.:1.0000   3rd Qu.:4.000   3rd Qu.:4.000  
     Max.   :1.0000   Max.   :5.000   Max.   :8.000
    
    #####  箱图  #####
    

    多重共线性

    > library(car)  #使用car包中函数,计算方差膨胀因子
    > vif(fit)  # vif开方的值如果大于2,则表示存在多重共线性问题
    

    还剩下一些写在思维导图里了,有空转移过来

    相关文章

      网友评论

          本文标题:R语言数据清洗

          本文链接:https://www.haomeiwen.com/subject/toptiftx.html