美文网首页生信猿R语言生物信息学R语言源码
高效数据整理工具——dplyr(二)多数据框处理

高效数据整理工具——dplyr(二)多数据框处理

作者: 井底蛙蛙呱呱呱 | 来源:发表于2018-07-17 21:01 被阅读78次

    高效数据整理工具——dplyr(一)中,简要介绍使用dplyr对但数据表的处理,在本节中将会学习如何使用dplyr对多数据表进行处理。主要函数有如下图所示。

    image.png

    1、数据框合并

    两个数据框合并可分别使用bind_rows(y, z)bind_cols(y, z)进行行或者列合并。

    > df1 <- data.frame(a=1:2,b=3:4);df1
      a b
    1 1 3
    2 2 4
    > df2 <-data.frame(a=5:6,b=7:8);df2
      a b
    1 5 7
    2 6 8
    > bind_rows(df1,df2)
      a b
    1 1 3
    2 2 4
    3 5 7
    4 6 8
    > bind_cols(df1,df2)
      a b a1 b1
    1 1 3  5  7
    2 2 4  6  8
    

    此外,也可以使用R自带的rbind()cbind()进行数据框的合并。

    2、数据框连接

    dplyr提供了left_join(), right_join(), inner_join(), full_join()来提供不同的连接方式。
    left_join() 以左边数据框为基准,将右边数据框连接进去,可存在一对多的映射关系,保留左边数据框的所有行。

    > df1 <- data.frame(x = c(1, 2), y = 2:1)
    > df2 <- data.frame(x = c(1, 3), a = 10, b = "a")
    > df1;df2
      x y
    1 1 2
    2 2 1
      x  a b
    1 1 10 a
    2 3 10 a
    > left_join(df1,df2)
    Joining, by = "x"
      x y  a    b
    1 1 2 10    a
    2 2 1 NA <NA>
    

    right_join()用法与left_join()相似,只是以右边为基准,连接左侧数据框。

    > right_join(df1,df2)
    Joining, by = "x"
      x  y  a b
    1 1  2 10 a
    2 3 NA 10 a
    

    inner_join()则是选取连接后两个数据框都有的记录保留。

    > inner_join(df1,df2)
    Joining, by = "x"
      x y  a b
    1 1 2 10 a
    

    full_join()则是保留两个数据框的所有记录。

    > inner_join(df1,df2)
    Joining, by = "x"
      x y  a b
    1 1 2 10 a
    

    除了上面四种常见的连接方式外,dplyr还提供了另外两个函数通过共有记录来筛选数据:semi_join(x,y)只保留x中能与y匹配的记录;而anti_join(x,y)则是丢掉x中与y匹配的记录。

    3、数据框间的交集、差集与并集

    dplyr提供了intersect(x,y)union(x,y)setdiff(x,y)三个函数来分别进行求交集、并集和差集。

    > df1 <- data_frame(x = 1:2, y = c(1L, 1L))
    > df2 <- data_frame(x = 1:2, y = 1:2)
    > df1;df2
    # A tibble: 2 x 2
          x     y
      <int> <int>
    1     1     1
    2     2     1
    # A tibble: 2 x 2
          x     y
      <int> <int>
    1     1     1
    2     2     2
    > df1;df2
    # A tibble: 2 x 2
          x     y
      <int> <int>
    1     1     1
    2     2     1
    # A tibble: 2 x 2
          x     y
      <int> <int>
    1     1     1
    2     2     2
    # 交集
    > intersect(df1,df2)
    # A tibble: 1 x 2
          x     y
      <int> <int>
    1     1     1
    # 并集
    > union(df1,df2)
    # A tibble: 3 x 2
          x     y
      <int> <int>
    1     1     1
    2     2     1
    3     2     2
    # 差集
    > setdiff(df1,df2)
    # A tibble: 1 x 2
          x     y
      <int> <int>
    1     2     1
    
    4、多个数据框的连接

    对于多个数据框的连接可以使用purrr包中的reduce函数:

    library(dplyr)
    x <- data_frame(i = c("a","b","c"), j = 1:3)
    y <- data_frame(i = c("b","c","d"), k = 4:6)
    z <- data_frame(i = c("c","d","a"), l = 7:9)
    
    list(x, y, z) %>% reduce(full_join, by = "i")
    # A tibble: 4 x 4
    # i         j     k     l
    # <chr> <int> <int> <int>
    #   1 a         1    NA     9
    # 2 b         2     4    NA
    # 3 c         3     5     7
    # 4 d        NA     6     8
    
    list(x, y, z) %>% reduce(inner_join, by = "i")
    # A tibble: 1 x 4
    # i         j     k     l
    # <chr> <int> <int> <int>
    #   1 c         3     5     7
    

    参考:
    R语言入门7:数据处理之双表操作-Dplyr
    官方文档

    相关文章

      网友评论

        本文标题:高效数据整理工具——dplyr(二)多数据框处理

        本文链接:https://www.haomeiwen.com/subject/ceqgpftx.html