美文网首页生物信息学Cook R生物信息学
R语言入门5:数据变形-Tidyr

R语言入门5:数据变形-Tidyr

作者: 曹务强 | 来源:发表于2017-11-26 00:03 被阅读80次

    1.Tidy data原则

    当我们进行数据整理时,同样的数据,可以整理成不同的形式,在下面的例子中,我们可以把GeneId作为行,样品名称作为列,也可以颠倒过来,以样品名称为行,基因编号作为列:

    image

    当我们用R处理数据时,应该遵循Tidy data的原则:

    • 每一列:代表一个变量(vairable)
    • 每一行:代表一次观测(observation)

    在我们上面的例子中,基因的ID,样品名称以及基因的表达量都是变量,而每一个基因在每一个样品中的表达量可以成为一次观测。因此,按照Tidy data的原则,应该将上述图表中的数据整理成如下格式:

    image

    我们在正式对生物信息学数据进行统计分析之前,应该先把我们的数据格式转换为Tidy data格式,因为R语言中的大多数包都只支持Tidy data格式的数据。

    2.使用Tidyr转换数据格式

    (1)Tidyr的安装

    在使用Tidy之前,首先要下载安装软件包:

    1)修改下载源

    依次点击Tools--Global Options--Packages--Change,选择一个国内的CRAN镜像

    image

    2)下载安装Tidyr

    点击Tools--Install Packages,输入要安装的软件包tidyr,点击install即可自动安装:

    image

    或者,我们也可以使用命令行进行软件的安装:

    # 使用install.package()命令安装软件
    > install.packages("tidyr")
    

    (2) 数据的转换-1

    1)转换策略

    image

    我们的目的是要把左边的数据转换成右边的格式,要实现转换结果,在Geneid一定的情况下,我们可以把每一个样品和其对应的基因表达量看做一个键-值对(key-value pair)。比如:在GeneID为gene1时,sample1对应的表达量是3,sample2对应的表达量是4。因此,我们在转换数据时,只需按照上述规则,并指定要转换的列即可。使用tidyr包中的gather函数即可实现转换。

    2)加载包

    在使用Tidyr包之前,我们需要先加载包:

    # 加载tidyr包
    > library(tidyr)
    

    3)使用gather命令将数据转换为Tidy格式

    • 1.读取数据:
    > gene_exp <-  read.table(file = "gene_exp.txt", sep = "\t", header = TRUE)
    > gene_exp
      GeneId Sample1 Sample2 Sample3
    1  gene1       1     2.0     0.3
    2  gene2       4     5.0     6.0
    3  gene3       7     0.8     9.0
    4  gene4      10    11.0    12.0
    

    原始数据是这样的:

    image
    • 2.格式转换
    # gather()命令转换说明:
    # gather(data=数据框名,key="key名",value="value名",要转换的列1,列2,列3)
    > gene_exp_tidy <- gather(data = gene_exp, key = "sample_name", value = "expression", Sample1, Sample2, Sample3)
    # 在指定要转换的列时,也可不用列名,直接指定列的编号即可
    > gene_exp_tidy <- gather(data = gene_exp, key = "sample_name", value = "expression", 2:4)
    #  在指定要转换的列时,也可指定不需转换的列,其他列参与转换
    > gene_exp_tidy <- gather(data = gene_exp, key = "sample_name", value = "expression", -GeneId)
    

    转换后的效果:


    image

    4)使用spread()函数将Tidy格式数据还原

    Tidyr中的spread()函数,可以将Tidy格式的数据,转换成原来的格式:

    > spread(data = gene_exp_tidy, key = "sample_name", value = "expression")
      GeneId Sample1 Sample2 Sample3
    1  gene1       1     2.0     0.3
    2  gene2       4     5.0     6.0
    3  gene3       7     0.8     9.0
    4  gene4      10    11.0    12.0
    

    (3) 数据的转换-2

    有时,在数据处理时,我们会遇到下面这种更加复杂的情况,在GeneId一定的情况下,每一样品还对应不同的温度:

    image

    对这样的数据,我们应该如何处理呢?

    1)处理策略

    • 1.先使用gather()函数,按列进行转换
    • 2.再使用spread()函数,将Sample和温度分开

    2)数据处理

    • 1.读取数据
    # 读取数据
    > gene_exp3 <- read.table(gene_exp3.txt, sep = "\t", header = TRUE)
    
    • 2.使用gather()函数处理
    > gene_exp3_tidy <- gather(gene_exp3, key, Expression, -GeneId)
    

    gather()处理后的结果:

    image
    • 3.使用seprate()函数,对key这一列进行分割
    > gene_exp3_tidy2 <- separate(gene_exp3_tidy, col = key, into = c("SampleName","Temperature"))
    

    最终的效果如下:

    image

    相关文章

      网友评论

      本文标题:R语言入门5:数据变形-Tidyr

      本文链接:https://www.haomeiwen.com/subject/ngphbxtx.html