美文网首页生物信息学Cook R数据科学与R语言
R语言入门7:数据处理之双表操作-Dplyr

R语言入门7:数据处理之双表操作-Dplyr

作者: 曹务强 | 来源:发表于2017-11-28 00:24 被阅读186次

    在我们处理数据时,除了对单个表格进行处理,有时还需要对两个甚至多个表格进行操作。

    1.数据框拼接:binding

    我们现在有一个数据框的格式如下:


    image

    如果有另外一个数据框,和其排列相似,如何把两个数据框拼接在一起呢?

    (1)生成一个相同格式的数据框

    # 用R的data.frame函数创建一个相同格式的数据框
    gene_exp_tidy2 <- data.frame(GeneId = rep("gene5", times = 3),sample_name = paste("sample", 1:3, sep = ""), expression = 2:4)
    
    image

    (2)将两个数据框拼接起来

    # 1.使用R自带的函数rbind拼接
    rbind(gene_exp_tidy,gene_exp_tidy2)  
    # 2.使用dplyr的bind_rows函数
    bind_rows(gene_exp_tidy,gene_exp_tidy2)
    
    image

    binding的具体用法:

    image

    2.交集、并集、差集

    (1)构建一个由gene1和gene5组成的数据框

    gene_exp_tidy3 <- filter(gene_exp_tidy, GeneId == "gene1")%>%
      bind_rows(gene_exp_tidy2)
    
    image

    (2)求交集、并集和差集

    # 求两个数据框的交集
    intersect(gene_exp_tidy, gene_exp_tidy3)
    
    image
    # 求两个数据框的并集(自动去除重复)
    union(gene_exp_tidy, gene_exp_tidy3)
    
    image
    # 求两个数据框的并集,不去除重复
    union_all(gene_exp_tidy, gene_exp_tidy3)
    
    image
    # 求两个数据框的差集
    setdiff(gene_exp_tidy, gene_exp_tidy3)
    
    image

    3.内连接、左连接、右连接、全连接

    image

    上图中,左边的数据框中有基因的表达信息,右边的数据框中有基因的功能注释,如何把两个数据框相关联,将基因功能注释添加到基因的表达信息中呢?

    左连接:以第一个数据框为准,将第二个数据框的相关信息添加进去

    # 将两张表以GeneId进行关联
    left_join(gene_exp_tidy, gene_anno, by = "GeneId")
    
    image

    在上面的例子中。两张表都有GeneId一列,列名完全相同,如果两个列名不完全相同时怎么办呢?

    我们先将第二个数据框中的GeneId进行修改:

    # 使用rename函数将GeneId换成Geneid
    gene_anno <- rename(gene_anno, Geneid = GeneId)
    # 将两个数据框关联,设置两个数据框中相同的列名
    left_join(gene_exp_tidy, gene_anno, by =c("GeneId" = "Geneid"))
    
    image

    右连接:以第二个数据框为准,将第一个数据框中的相关信息添加进去

    # 右连接
    right_join(gene_exp_tidy, gene_anno, by =c("GeneId" = "Geneid"))
    
    image

    内连接:保留两个数据框中共有的GeneId

    # 内连接
    inner_join(gene_exp_tidy, gene_anno, by =c("GeneId" = "Geneid"))
    
    image

    全连接:保留两张表格中所有GeneId的信息

    # 全连接
    full_join(gene_exp_tidy, gene_anno, by =c("GeneId" = "Geneid"))
    
    image

    4.半连接、反连接

    半连接:只保留第二个数据框中包含的GeneId信息

    # 半连接
    semi_join(gene_exp_tidy, gene_anno, by =c("GeneId" = "Geneid"))
    
    image

    反连接:只保留第二个数据框中不包含的GeneId信息

    # 反连接
    anti_join(gene_exp_tidy, gene_anno, by =c("GeneId" = "Geneid"))
    
    image

    相关文章

      网友评论

        本文标题:R语言入门7:数据处理之双表操作-Dplyr

        本文链接:https://www.haomeiwen.com/subject/wvojbxtx.html