美文网首页SCI 文章绘图
FigDraw 3. SCI 文章绘图必备 R 数据转换

FigDraw 3. SCI 文章绘图必备 R 数据转换

作者: 桓峰基因 | 来源:发表于2022-04-13 07:38 被阅读0次

    关注公众号,桓峰基因


    桓峰基因 生物信息分析,SCI文章撰写及生物信息基础知识学习:R语言学习,perl基础编程,linux系统命令,Python遇见更好的你 70篇原创内容 --> 公众号

      研究肿瘤克隆进化的同学可以关注桓峰基因小店,本月15号下午3:30在线直播!!



        好多同学在处理数据的时候改不清每个软件包对输入数据的要求,有时要求是matrix,有时是list,有时是vector, 有时是个object,并且一般基础绘图要求是宽数据,而ggplot2要求是长数据,所以数据转换往往是新手同学的拦路虎,那么这期咱们就灭了这只拦路虎,让自己走得更远,攀得更高!

    前言

    R中有许多用于数据框基本操作的内置函数,一般是基于 base 包的。而这个包是安装R是会自带的包,也就是说不用自己单独安装一次,并且无须加载就可以直接使用,除此之外,还有几种常用的数据处理的R包,包括:

    1. {dplyr}
    2. {tidyr}
    3. {reshape2}
    4. {tidyverse}

    一般我们实验记录的数据格式(大多习惯用宽表格记录数据)和我们后期用R绘图所用到的数据格式往往不一样,例如ggplot2、plyr,还有大多数建模函数lm()、glm()、gam()等经常会使用长表格数据来作图,这时用reshape2包来转换实验记录的宽表格数据会十分方便。我们基于上述的五个R软件包,包括base一起说说他们怎么用,因为在高级绘图中往往出现的频率最高,也是处理数据对快的方式。

    实例讲解

    首先安装这是个常用软件包并加载,如下:

    if (!require(dplyr)) {
    install.packages("dplyr")
    }
    if (!require(tidyr)) {
    install.packages("tidyr")
    }
    if (!require(reshape2)) {
    install.packages("reshape2")
    }
    if (!require(tidyverse)) {
    install.packages("tidyverse")
    }
    library(dplyr)
    library(tidyr)
    library(reshape2)
    library(tidyverse)

    1. {base}

    R 软件包包括一些常用的数据处理的函数,比如rbind, cbind, transform 等函数,学会怎样处理简单的数据合并,转换,下面我们就举几个例子:

    # 宽数据 library(help = 'base') 构建一个数据框
    data1 <- data.frame(Level = LETTERS[1:4], x = 1:4, y = seq(7, 10), check.names = FALSE)
    data1
    ## Level x y
    ## 1 A 1 7
    ## 2 B 2 8
    ## 3 C 3 9
    ## 4 D 4 10
    data2 <- data.frame(Level = LETTERS[1:4], x = 5:8, y = seq(1, 4), check.names = FALSE)
    data2
    ## Level x y
    ## 1 A 5 1
    ## 2 B 6 2
    ## 3 C 7 3
    ## 4 D 8 4
    # 合并数据 列合并
    data <- cbind(data1, data2)
    data
    ## Level x y Level x y
    ## 1 A 1 7 A 5 1
    ## 2 B 2 8 B 6 2
    ## 3 C 3 9 C 7 3
    ## 4 D 4 10 D 8 4
    # 行合并
    data <- rbind(data1, data2)
    data
    ## Level x y
    ## 1 A 1 7
    ## 2 B 2 8
    ## 3 C 3 9
    ## 4 D 4 10
    ## 5 A 5 1
    ## 6 B 6 2
    ## 7 C 7 3
    ## 8 D 8 4
    # 为原数据框添加新的列,改变原变量列的值,还可通过赋值NULL删除列变量
    transform(data, x = -x, y = y + 2)
    ## Level x y
    ## 1 A -1 9
    ## 2 B -2 10
    ## 3 C -3 11
    ## 4 D -4 12
    ## 5 A -5 3
    ## 6 B -6 4
    ## 7 C -7 5
    ## 8 D -8 6

    2. {dplyr}

    dplyr是R语言的数据分析包,能对data frame类型的数据做很方便的数据处理和分析操作。dplyr如同R的大多数包,都是函数式编程。优点是初学者比较容易接受这种函数式思维,有点类似于流水线,每个函数就是一个车间,多个车间共同完成一个生产(数据分析)任务。而在dplyr中,就有一个管道符 %>% 经常出现在绘图过程中对数据的处理,该符号左侧表示数据的输入,右侧表示下游数据处理环节。

    我们这里举几个常用的函数,如下:

    dplyr is a grammar of data manipulation, providing a consistent set of verbs that help you solve the most common data manipulation challenges:mutate() adds new variables that are functions of existing variablesselect() picks variables based on their names.filter() picks cases based on their values.summarise() reduces multiple values down to a single summary.arrange() changes the ordering of the rows.

    # 对x列进行排序
    arrange(data, -x)
    ## Level x y
    ## 1 D 8 4
    ## 2 C 7 3
    ## 3 B 6 2
    ## 4 A 5 1
    ## 5 D 4 10
    ## 6 C 3 9
    ## 7 B 2 8
    ## 8 A 1 7

    # 选择数据的Level和x
    select(data, Level, x)
    ## Level x
    ## 1 A 1
    ## 2 B 2
    ## 3 C 3
    ## 4 D 4
    ## 5 A 5
    ## 6 B 6
    ## 7 C 7
    ## 8 D 8
    # 另一种方式选择
    select(data, -y)
    ## Level x
    ## 1 A 1
    ## 2 B 2
    ## 3 C 3
    ## 4 D 4
    ## 5 A 5
    ## 6 B 6
    ## 7 C 7
    ## 8 D 8

    # 按照筛选条件选择数据
    filter(data, x >= 3)
    ## Level x y
    ## 1 C 3 9
    ## 2 D 4 10
    ## 3 A 5 1
    ## 4 B 6 2
    ## 5 C 7 3
    ## 6 D 8 4
    # 筛选下>=3,y>=5
    filter(data, (x >= 3 & y >= 5))
    ## Level x y
    ## 1 C 3 9
    ## 2 D 4 10

    # 将现有的字段经过计算后生成新字段
    mutate(data, xy = x * y, log = log(xy))
    ## Level x y xy log
    ## 1 A 1 7 7 1.945910
    ## 2 B 2 8 16 2.772589
    ## 3 C 3 9 27 3.295837
    ## 4 D 4 10 40 3.688879
    ## 5 A 5 1 5 1.609438
    ## 6 B 6 2 12 2.484907
    ## 7 C 7 3 21 3.044522
    ## 8 D 8 4 32 3.465736
    # 得到记录的位置(行数)
    mutate(data, n = row_number())
    ## Level x y n
    ## 1 A 1 7 1
    ## 2 B 2 8 2
    ## 3 C 3 9 3
    ## 4 D 4 10 4
    ## 5 A 5 1 5
    ## 6 B 6 2 6
    ## 7 C 7 3 7
    ## 8 D 8 4 8

    # 计算x平均值
    summarise(data, mean_x = mean(x))
    ## mean_x
    ## 1 4.5
    # Useful functions Center: mean(), median() Spread: sd(), IQR(), mad() Range:
    # min(), max(), quantile() Position: first(), last(), nth(), Count: n(),
    # n_distinct() Logical: any(), all()

    # 对资料进行分组
    group_by(data, Level)
    ## # A tibble: 8 x 3
    ## # Groups: Level [4]
    ## Level x y
    ## <chr> <int> <int>
    ## 1 A 1 7
    ## 2 B 2 8
    ## 3 C 3 9
    ## 4 D 4 10
    ## 5 A 5 1
    ## 6 B 6 2
    ## 7 C 7 3
    ## 8 D 8 4

    我们也可以用管道符 %>% ,两种写法得到的运行结果是一致的,可能用久了会觉得管道符 %>% 可读性更强,后面我们都会用 %>% 来写代码。

    # 对x列进行排序
    data %>%
    arrange(-x)
    ## Level x y
    ## 1 D 8 4
    ## 2 C 7 3
    ## 3 B 6 2
    ## 4 A 5 1
    ## 5 D 4 10
    ## 6 C 3 9
    ## 7 B 2 8
    ## 8 A 1 7

    # 选择数据的Level和x
    data %>%
    select(Level, x)
    ## Level x
    ## 1 A 1
    ## 2 B 2
    ## 3 C 3
    ## 4 D 4
    ## 5 A 5
    ## 6 B 6
    ## 7 C 7
    ## 8 D 8
    # 另一种方式选择
    data %>%
    select(-y)
    ## Level x
    ## 1 A 1
    ## 2 B 2
    ## 3 C 3
    ## 4 D 4
    ## 5 A 5
    ## 6 B 6
    ## 7 C 7
    ## 8 D 8

    # 按照筛选条件选择数据
    data %>%
    filter(x >= 3)
    ## Level x y
    ## 1 C 3 9
    ## 2 D 4 10
    ## 3 A 5 1
    ## 4 B 6 2
    ## 5 C 7 3
    ## 6 D 8 4
    # 筛选下>=3,y>=5
    data %>%
    filter((x >= 3 & y >= 5))
    ## Level x y
    ## 1 C 3 9
    ## 2 D 4 10

    # 将现有的字段经过计算后生成新字段
    data %>%
    mutate(xy = x * y, log = log(xy))
    ## Level x y xy log
    ## 1 A 1 7 7 1.945910
    ## 2 B 2 8 16 2.772589
    ## 3 C 3 9 27 3.295837
    ## 4 D 4 10 40 3.688879
    ## 5 A 5 1 5 1.609438
    ## 6 B 6 2 12 2.484907
    ## 7 C 7 3 21 3.044522
    ## 8 D 8 4 32 3.465736
    # 得到记录的位置(行数)
    data %>%
    mutate(n = row_number())
    ## Level x y n
    ## 1 A 1 7 1
    ## 2 B 2 8 2
    ## 3 C 3 9 3
    ## 4 D 4 10 4
    ## 5 A 5 1 5
    ## 6 B 6 2 6
    ## 7 C 7 3 7
    ## 8 D 8 4 8

    # 计算x平均值
    data %>%
    summarise(mean_x = mean(x))
    ## mean_x
    ## 1 4.5


    # 对资料进行分组
    data %>%
    group_by(Level)
    ## # A tibble: 8 x 3
    ## # Groups: Level [4]
    ## Level x y
    ## <chr> <int> <int>
    ## 1 A 1 7
    ## 2 B 2 8
    ## 3 C 3 9
    ## 4 D 4 10
    ## 5 A 5 1
    ## 6 B 6 2
    ## 7 C 7 3
    ## 8 D 8 4
    # 为了让大家看到分组的功效,咱们按照Level分别计算x的平均数
    data %>%
    group_by(Level) %>%
    summarise(mean_x = mean(x))
    ## # A tibble: 4 x 2
    ## Level mean_x
    ## <chr> <dbl>
    ## 1 A 3
    ## 2 B 4
    ## 3 C 5
    ## 4 D 6

    其他函数可以参考cheat,如下:

    https://dplyr.tidyverse.org/

    3. {tidyr}

    tidyr用于数据处理,可以实现数据长格式和宽格式之间的相互转换,这里所指的长格式数据就是一个观测对象由多行组成,而宽数据格式则是一个观测仅由一行组成。除此之外,tidyr还可以对数据进行拆分和合并,同时也能够对缺失值进行简单的处理。tidyr的转换函数gather(宽到长)和spread(长到宽)所需参数少,逻辑上更易理解,自始至终都围绕着data,key、value三个参数来进行设定,对比其它R语言长宽格式互换的实现方式,个人认为tidyr操作性还是比较突出的。

    当我们用R处理数据时,应该遵循Tidy data的原则:

    每一列都是变量;

    每一行都是一个观察结果;

    每个单元格都是一个单独的值。

    我们这里主要介绍tidyr包的四个常用函数:

    1. gather:宽数据转为长数据:

    2. spread:长数据转为宽数据;

    3. unit:多列合并为一列;

    4. separate:将一列分离为多列。

    rownames(data) = paste("Sample", 1:8, sep = "")
    data$Sample = paste("Sample", 1:8, sep = "")
    data
    ## Level x y Sample
    ## Sample1 A 1 7 Sample1
    ## Sample2 B 2 8 Sample2
    ## Sample3 C 3 9 Sample3
    ## Sample4 D 4 10 Sample4
    ## Sample5 A 5 1 Sample5
    ## Sample6 B 6 2 Sample6
    ## Sample7 C 7 3 Sample7
    ## Sample8 D 8 4 Sample8
    # 宽数据转为长数据
    data_long <- gather(data, Variable, Value, -Sample)
    data_long
    ## Sample Variable Value
    ## 1 Sample1 Level A
    ## 2 Sample2 Level B
    ## 3 Sample3 Level C
    ## 4 Sample4 Level D
    ## 5 Sample5 Level A
    ## 6 Sample6 Level B
    ## 7 Sample7 Level C
    ## 8 Sample8 Level D
    ## 9 Sample1 x 1
    ## 10 Sample2 x 2
    ## 11 Sample3 x 3
    ## 12 Sample4 x 4
    ## 13 Sample5 x 5
    ## 14 Sample6 x 6
    ## 15 Sample7 x 7
    ## 16 Sample8 x 8
    ## 17 Sample1 y 7
    ## 18 Sample2 y 8
    ## 19 Sample3 y 9
    ## 20 Sample4 y 10
    ## 21 Sample5 y 1
    ## 22 Sample6 y 2
    ## 23 Sample7 y 3
    ## 24 Sample8 y 4
    # 管道符处理
    data %>%
    gather(Variable, Value, -Sample)
    ## Sample Variable Value
    ## 1 Sample1 Level A
    ## 2 Sample2 Level B
    ## 3 Sample3 Level C
    ## 4 Sample4 Level D
    ## 5 Sample5 Level A
    ## 6 Sample6 Level B
    ## 7 Sample7 Level C
    ## 8 Sample8 Level D
    ## 9 Sample1 x 1
    ## 10 Sample2 x 2
    ## 11 Sample3 x 3
    ## 12 Sample4 x 4
    ## 13 Sample5 x 5
    ## 14 Sample6 x 6
    ## 15 Sample7 x 7
    ## 16 Sample8 x 8
    ## 17 Sample1 y 7
    ## 18 Sample2 y 8
    ## 19 Sample3 y 9
    ## 20 Sample4 y 10
    ## 21 Sample5 y 1
    ## 22 Sample6 y 2
    ## 23 Sample7 y 3
    ## 24 Sample8 y 4

    # 长数据转为宽数据
    spread(data_long, Variable, Value)
    ## Sample Level x y
    ## 1 Sample1 A 1 7
    ## 2 Sample2 B 2 8
    ## 3 Sample3 C 3 9
    ## 4 Sample4 D 4 10
    ## 5 Sample5 A 5 1
    ## 6 Sample6 B 6 2
    ## 7 Sample7 C 7 3
    ## 8 Sample8 D 8 4
    # 管道符
    data_long %>%
    spread(Variable, Value)
    ## Sample Level x y
    ## 1 Sample1 A 1 7
    ## 2 Sample2 B 2 8
    ## 3 Sample3 C 3 9
    ## 4 Sample4 D 4 10
    ## 5 Sample5 A 5 1
    ## 6 Sample6 B 6 2
    ## 7 Sample7 C 7 3
    ## 8 Sample8 D 8 4

    # 多列合并为一列
    data_unite <- unite(data, Sample2Level, Sample, Level, sep = "_")
    data_unite
    ## Sample2Level x y
    ## Sample1 Sample1_A 1 7
    ## Sample2 Sample2_B 2 8
    ## Sample3 Sample3_C 3 9
    ## Sample4 Sample4_D 4 10
    ## Sample5 Sample5_A 5 1
    ## Sample6 Sample6_B 6 2
    ## Sample7 Sample7_C 7 3
    ## Sample8 Sample8_D 8 4
    # 管道符处理
    data %>%
    unite(Sample2Level, Sample, Level, sep = "_")
    ## Sample2Level x y
    ## Sample1 Sample1_A 1 7
    ## Sample2 Sample2_B 2 8
    ## Sample3 Sample3_C 3 9
    ## Sample4 Sample4_D 4 10
    ## Sample5 Sample5_A 5 1
    ## Sample6 Sample6_B 6 2
    ## Sample7 Sample7_C 7 3
    ## Sample8 Sample8_D 8 4

    # 将一列分离为多列
    separate(data_unite, Sample2Level, c("Sample", "Level"), sep = "_")
    ## Sample Level x y
    ## Sample1 Sample1 A 1 7
    ## Sample2 Sample2 B 2 8
    ## Sample3 Sample3 C 3 9
    ## Sample4 Sample4 D 4 10
    ## Sample5 Sample5 A 5 1
    ## Sample6 Sample6 B 6 2
    ## Sample7 Sample7 C 7 3
    ## Sample8 Sample8 D 8 4
    # 管道符处理
    data_unite %>%
    separate(Sample2Level, c("Sample", "Level"), sep = "_")
    ## Sample Level x y
    ## Sample1 Sample1 A 1 7
    ## Sample2 Sample2 B 2 8
    ## Sample3 Sample3 C 3 9
    ## Sample4 Sample4 D 4 10
    ## Sample5 Sample5 A 5 1
    ## Sample6 Sample6 B 6 2
    ## Sample7 Sample7 C 7 3
    ## Sample8 Sample8 D 8 4

    其他数据操作函数参考官网,如下:

    https://tidyr.tidyverse.org/

    4. {reshape2}

    reshape2是由Hadley Wickham编写的R包,可以轻松地在宽格式(wide-format)和长格式(long-format)之间转换数据。reshape2R包主要有两个主要的功能:melt和cast

    1. melt:将wide-format数据“熔化”成long-format数据;

    2. cast:获取long-format数据“重铸”成wide-format数据。

    这两个命名十分形象,方便记忆,你可以想象成你在处理金属。当你熔化金属成液体滴下时,金属会被拉长(long-format)。如果你把金属它铸成一个模子,它就会变宽(wide-format)。

    # 数据融合
    data_melt <- melt(data, id.vars = c("Sample", "Level"), variable.name = "Group",
    value.name = "Score")
    data_melt
    ## Sample Level Group Score
    ## 1 Sample1 A x 1
    ## 2 Sample2 B x 2
    ## 3 Sample3 C x 3
    ## 4 Sample4 D x 4
    ## 5 Sample5 A x 5
    ## 6 Sample6 B x 6
    ## 7 Sample7 C x 7
    ## 8 Sample8 D x 8
    ## 9 Sample1 A y 7
    ## 10 Sample2 B y 8
    ## 11 Sample3 C y 9
    ## 12 Sample4 D y 10
    ## 13 Sample5 A y 1
    ## 14 Sample6 B y 2
    ## 15 Sample7 C y 3
    ## 16 Sample8 D y 4
    # 管道符处理
    data %>%
    melt(id.vars = c("Sample", "Level"), variable.name = "Group", value.name = "Score")
    ## Sample Level Group Score
    ## 1 Sample1 A x 1
    ## 2 Sample2 B x 2
    ## 3 Sample3 C x 3
    ## 4 Sample4 D x 4
    ## 5 Sample5 A x 5
    ## 6 Sample6 B x 6
    ## 7 Sample7 C x 7
    ## 8 Sample8 D x 8
    ## 9 Sample1 A y 7
    ## 10 Sample2 B y 8
    ## 11 Sample3 C y 9
    ## 12 Sample4 D y 10
    ## 13 Sample5 A y 1
    ## 14 Sample6 B y 2
    ## 15 Sample7 C y 3
    ## 16 Sample8 D y 4

    # 长数据转换成宽数据,将melt之后的data_melt转换成原始数据
    dcast(data_melt, Sample + Level ~ Group)
    ## Sample Level x y
    ## 1 Sample1 A 1 7
    ## 2 Sample2 B 2 8
    ## 3 Sample3 C 3 9
    ## 4 Sample4 D 4 10
    ## 5 Sample5 A 5 1
    ## 6 Sample6 B 6 2
    ## 7 Sample7 C 7 3
    ## 8 Sample8 D 8 4
    # 管道符处理
    data_melt %>%
    dcast(Sample + Level ~ Group)
    ## Sample Level x y
    ## 1 Sample1 A 1 7
    ## 2 Sample2 B 2 8
    ## 3 Sample3 C 3 9
    ## 4 Sample4 D 4 10
    ## 5 Sample5 A 5 1
    ## 6 Sample6 B 6 2
    ## 7 Sample7 C 7 3
    ## 8 Sample8 D 8 4

    其他函数可参考网站,如下:

    https://seananderson.ca/2013/10/19/reshape/

    5. {tidyverse}

    tidyverse是为数据科学设计的R软件包,它包含(ggplot2、dplyr、tidyr、stringr、magrittr、tibble)等一系列热门软件包,学好tidyverse的使用可也让你站上另一个高度,从而高效的处理数据,因此本文档不仅仅做一些案例介绍,而是希望以较为正确的学习方法来介绍R语言,使大家少走弯路,快速入门掌握R语言。这个包好多的函数都在上面的几个包中讲过,但是大飞哥终结的很全面,我就直接采用了,方便大家查找和使用,代码如下:

    https://dengfei2013.gitee.io/r-language-advanced/

    其他更多函数的讲解参考官网,如下:

    https://tidyverse.tidyverse.org

    本文使用 文章同步助手 同步

    相关文章

      网友评论

        本文标题:FigDraw 3. SCI 文章绘图必备 R 数据转换

        本文链接:https://www.haomeiwen.com/subject/qlvosrtx.html