关注公众号,桓峰基因
桓峰基因 生物信息分析,SCI文章撰写及生物信息基础知识学习:R语言学习,perl基础编程,linux系统命令,Python遇见更好的你 70篇原创内容 --> 公众号
研究肿瘤克隆进化的同学可以关注桓峰基因小店,本月15号下午3:30在线直播!!
好多同学在处理数据的时候改不清每个软件包对输入数据的要求,有时要求是matrix,有时是list,有时是vector, 有时是个object,并且一般基础绘图要求是宽数据,而ggplot2要求是长数据,所以数据转换往往是新手同学的拦路虎,那么这期咱们就灭了这只拦路虎,让自己走得更远,攀得更高!
前言
R中有许多用于数据框基本操作的内置函数,一般是基于 base 包的。而这个包是安装R是会自带的包,也就是说不用自己单独安装一次,并且无须加载就可以直接使用,除此之外,还有几种常用的数据处理的R包,包括:
- {dplyr}
- {tidyr}
- {reshape2}
- {tidyverse}
一般我们实验记录的数据格式(大多习惯用宽表格记录数据)和我们后期用R绘图所用到的数据格式往往不一样,例如ggplot2、plyr,还有大多数建模函数lm()、glm()、gam()等经常会使用长表格数据来作图,这时用reshape2包来转换实验记录的宽表格数据会十分方便。我们基于上述的五个R软件包,包括base一起说说他们怎么用,因为在高级绘图中往往出现的频率最高,也是处理数据对快的方式。
实例讲解
首先安装这是个常用软件包并加载,如下:
if (!require(dplyr)) {
install.packages("dplyr")
}
if (!require(tidyr)) {
install.packages("tidyr")
}
if (!require(reshape2)) {
install.packages("reshape2")
}
if (!require(tidyverse)) {
install.packages("tidyverse")
}
library(dplyr)
library(tidyr)
library(reshape2)
library(tidyverse)
1. {base}
R 软件包包括一些常用的数据处理的函数,比如rbind, cbind, transform 等函数,学会怎样处理简单的数据合并,转换,下面我们就举几个例子:
# 宽数据 library(help = 'base') 构建一个数据框
data1 <- data.frame(Level = LETTERS[1:4], x = 1:4, y = seq(7, 10), check.names = FALSE)
data1
## Level x y
## 1 A 1 7
## 2 B 2 8
## 3 C 3 9
## 4 D 4 10
data2 <- data.frame(Level = LETTERS[1:4], x = 5:8, y = seq(1, 4), check.names = FALSE)
data2
## Level x y
## 1 A 5 1
## 2 B 6 2
## 3 C 7 3
## 4 D 8 4
# 合并数据 列合并
data <- cbind(data1, data2)
data
## Level x y Level x y
## 1 A 1 7 A 5 1
## 2 B 2 8 B 6 2
## 3 C 3 9 C 7 3
## 4 D 4 10 D 8 4
# 行合并
data <- rbind(data1, data2)
data
## Level x y
## 1 A 1 7
## 2 B 2 8
## 3 C 3 9
## 4 D 4 10
## 5 A 5 1
## 6 B 6 2
## 7 C 7 3
## 8 D 8 4
# 为原数据框添加新的列,改变原变量列的值,还可通过赋值NULL删除列变量
transform(data, x = -x, y = y + 2)
## Level x y
## 1 A -1 9
## 2 B -2 10
## 3 C -3 11
## 4 D -4 12
## 5 A -5 3
## 6 B -6 4
## 7 C -7 5
## 8 D -8 6
2. {dplyr}
dplyr是R语言的数据分析包,能对data frame类型的数据做很方便的数据处理和分析操作。dplyr如同R的大多数包,都是函数式编程。优点是初学者比较容易接受这种函数式思维,有点类似于流水线,每个函数就是一个车间,多个车间共同完成一个生产(数据分析)任务。而在dplyr中,就有一个管道符 %>% 经常出现在绘图过程中对数据的处理,该符号左侧表示数据的输入,右侧表示下游数据处理环节。
我们这里举几个常用的函数,如下:
dplyr is a grammar of data manipulation, providing a consistent set of verbs that help you solve the most common data manipulation challenges:mutate() adds new variables that are functions of existing variablesselect() picks variables based on their names.filter() picks cases based on their values.summarise() reduces multiple values down to a single summary.arrange() changes the ordering of the rows.
# 对x列进行排序
arrange(data, -x)
## Level x y
## 1 D 8 4
## 2 C 7 3
## 3 B 6 2
## 4 A 5 1
## 5 D 4 10
## 6 C 3 9
## 7 B 2 8
## 8 A 1 7
# 选择数据的Level和x
select(data, Level, x)
## Level x
## 1 A 1
## 2 B 2
## 3 C 3
## 4 D 4
## 5 A 5
## 6 B 6
## 7 C 7
## 8 D 8
# 另一种方式选择
select(data, -y)
## Level x
## 1 A 1
## 2 B 2
## 3 C 3
## 4 D 4
## 5 A 5
## 6 B 6
## 7 C 7
## 8 D 8
# 按照筛选条件选择数据
filter(data, x >= 3)
## Level x y
## 1 C 3 9
## 2 D 4 10
## 3 A 5 1
## 4 B 6 2
## 5 C 7 3
## 6 D 8 4
# 筛选下>=3,y>=5
filter(data, (x >= 3 & y >= 5))
## Level x y
## 1 C 3 9
## 2 D 4 10
# 将现有的字段经过计算后生成新字段
mutate(data, xy = x * y, log = log(xy))
## Level x y xy log
## 1 A 1 7 7 1.945910
## 2 B 2 8 16 2.772589
## 3 C 3 9 27 3.295837
## 4 D 4 10 40 3.688879
## 5 A 5 1 5 1.609438
## 6 B 6 2 12 2.484907
## 7 C 7 3 21 3.044522
## 8 D 8 4 32 3.465736
# 得到记录的位置(行数)
mutate(data, n = row_number())
## Level x y n
## 1 A 1 7 1
## 2 B 2 8 2
## 3 C 3 9 3
## 4 D 4 10 4
## 5 A 5 1 5
## 6 B 6 2 6
## 7 C 7 3 7
## 8 D 8 4 8
# 计算x平均值
summarise(data, mean_x = mean(x))
## mean_x
## 1 4.5
# Useful functions Center: mean(), median() Spread: sd(), IQR(), mad() Range:
# min(), max(), quantile() Position: first(), last(), nth(), Count: n(),
# n_distinct() Logical: any(), all()
# 对资料进行分组
group_by(data, Level)
## # A tibble: 8 x 3
## # Groups: Level [4]
## Level x y
## <chr> <int> <int>
## 1 A 1 7
## 2 B 2 8
## 3 C 3 9
## 4 D 4 10
## 5 A 5 1
## 6 B 6 2
## 7 C 7 3
## 8 D 8 4
我们也可以用管道符 %>% ,两种写法得到的运行结果是一致的,可能用久了会觉得管道符 %>% 可读性更强,后面我们都会用 %>% 来写代码。
# 对x列进行排序
data %>%
arrange(-x)
## Level x y
## 1 D 8 4
## 2 C 7 3
## 3 B 6 2
## 4 A 5 1
## 5 D 4 10
## 6 C 3 9
## 7 B 2 8
## 8 A 1 7
# 选择数据的Level和x
data %>%
select(Level, x)
## Level x
## 1 A 1
## 2 B 2
## 3 C 3
## 4 D 4
## 5 A 5
## 6 B 6
## 7 C 7
## 8 D 8
# 另一种方式选择
data %>%
select(-y)
## Level x
## 1 A 1
## 2 B 2
## 3 C 3
## 4 D 4
## 5 A 5
## 6 B 6
## 7 C 7
## 8 D 8
# 按照筛选条件选择数据
data %>%
filter(x >= 3)
## Level x y
## 1 C 3 9
## 2 D 4 10
## 3 A 5 1
## 4 B 6 2
## 5 C 7 3
## 6 D 8 4
# 筛选下>=3,y>=5
data %>%
filter((x >= 3 & y >= 5))
## Level x y
## 1 C 3 9
## 2 D 4 10
# 将现有的字段经过计算后生成新字段
data %>%
mutate(xy = x * y, log = log(xy))
## Level x y xy log
## 1 A 1 7 7 1.945910
## 2 B 2 8 16 2.772589
## 3 C 3 9 27 3.295837
## 4 D 4 10 40 3.688879
## 5 A 5 1 5 1.609438
## 6 B 6 2 12 2.484907
## 7 C 7 3 21 3.044522
## 8 D 8 4 32 3.465736
# 得到记录的位置(行数)
data %>%
mutate(n = row_number())
## Level x y n
## 1 A 1 7 1
## 2 B 2 8 2
## 3 C 3 9 3
## 4 D 4 10 4
## 5 A 5 1 5
## 6 B 6 2 6
## 7 C 7 3 7
## 8 D 8 4 8
# 计算x平均值
data %>%
summarise(mean_x = mean(x))
## mean_x
## 1 4.5
# 对资料进行分组
data %>%
group_by(Level)
## # A tibble: 8 x 3
## # Groups: Level [4]
## Level x y
## <chr> <int> <int>
## 1 A 1 7
## 2 B 2 8
## 3 C 3 9
## 4 D 4 10
## 5 A 5 1
## 6 B 6 2
## 7 C 7 3
## 8 D 8 4
# 为了让大家看到分组的功效,咱们按照Level分别计算x的平均数
data %>%
group_by(Level) %>%
summarise(mean_x = mean(x))
## # A tibble: 4 x 2
## Level mean_x
## <chr> <dbl>
## 1 A 3
## 2 B 4
## 3 C 5
## 4 D 6
其他函数可以参考cheat,如下:
https://dplyr.tidyverse.org/
3. {tidyr}
tidyr用于数据处理,可以实现数据长格式和宽格式之间的相互转换,这里所指的长格式数据就是一个观测对象由多行组成,而宽数据格式则是一个观测仅由一行组成。除此之外,tidyr还可以对数据进行拆分和合并,同时也能够对缺失值进行简单的处理。tidyr的转换函数gather(宽到长)和spread(长到宽)所需参数少,逻辑上更易理解,自始至终都围绕着data,key、value三个参数来进行设定,对比其它R语言长宽格式互换的实现方式,个人认为tidyr操作性还是比较突出的。
当我们用R处理数据时,应该遵循Tidy data的原则:
每一列都是变量;
每一行都是一个观察结果;
每个单元格都是一个单独的值。
我们这里主要介绍tidyr包的四个常用函数:
-
gather:宽数据转为长数据:
-
spread:长数据转为宽数据;
-
unit:多列合并为一列;
-
separate:将一列分离为多列。
rownames(data) = paste("Sample", 1:8, sep = "")
data$Sample = paste("Sample", 1:8, sep = "")
data
## Level x y Sample
## Sample1 A 1 7 Sample1
## Sample2 B 2 8 Sample2
## Sample3 C 3 9 Sample3
## Sample4 D 4 10 Sample4
## Sample5 A 5 1 Sample5
## Sample6 B 6 2 Sample6
## Sample7 C 7 3 Sample7
## Sample8 D 8 4 Sample8
# 宽数据转为长数据
data_long <- gather(data, Variable, Value, -Sample)
data_long
## Sample Variable Value
## 1 Sample1 Level A
## 2 Sample2 Level B
## 3 Sample3 Level C
## 4 Sample4 Level D
## 5 Sample5 Level A
## 6 Sample6 Level B
## 7 Sample7 Level C
## 8 Sample8 Level D
## 9 Sample1 x 1
## 10 Sample2 x 2
## 11 Sample3 x 3
## 12 Sample4 x 4
## 13 Sample5 x 5
## 14 Sample6 x 6
## 15 Sample7 x 7
## 16 Sample8 x 8
## 17 Sample1 y 7
## 18 Sample2 y 8
## 19 Sample3 y 9
## 20 Sample4 y 10
## 21 Sample5 y 1
## 22 Sample6 y 2
## 23 Sample7 y 3
## 24 Sample8 y 4
# 管道符处理
data %>%
gather(Variable, Value, -Sample)
## Sample Variable Value
## 1 Sample1 Level A
## 2 Sample2 Level B
## 3 Sample3 Level C
## 4 Sample4 Level D
## 5 Sample5 Level A
## 6 Sample6 Level B
## 7 Sample7 Level C
## 8 Sample8 Level D
## 9 Sample1 x 1
## 10 Sample2 x 2
## 11 Sample3 x 3
## 12 Sample4 x 4
## 13 Sample5 x 5
## 14 Sample6 x 6
## 15 Sample7 x 7
## 16 Sample8 x 8
## 17 Sample1 y 7
## 18 Sample2 y 8
## 19 Sample3 y 9
## 20 Sample4 y 10
## 21 Sample5 y 1
## 22 Sample6 y 2
## 23 Sample7 y 3
## 24 Sample8 y 4
# 长数据转为宽数据
spread(data_long, Variable, Value)
## Sample Level x y
## 1 Sample1 A 1 7
## 2 Sample2 B 2 8
## 3 Sample3 C 3 9
## 4 Sample4 D 4 10
## 5 Sample5 A 5 1
## 6 Sample6 B 6 2
## 7 Sample7 C 7 3
## 8 Sample8 D 8 4
# 管道符
data_long %>%
spread(Variable, Value)
## Sample Level x y
## 1 Sample1 A 1 7
## 2 Sample2 B 2 8
## 3 Sample3 C 3 9
## 4 Sample4 D 4 10
## 5 Sample5 A 5 1
## 6 Sample6 B 6 2
## 7 Sample7 C 7 3
## 8 Sample8 D 8 4
# 多列合并为一列
data_unite <- unite(data, Sample2Level, Sample, Level, sep = "_")
data_unite
## Sample2Level x y
## Sample1 Sample1_A 1 7
## Sample2 Sample2_B 2 8
## Sample3 Sample3_C 3 9
## Sample4 Sample4_D 4 10
## Sample5 Sample5_A 5 1
## Sample6 Sample6_B 6 2
## Sample7 Sample7_C 7 3
## Sample8 Sample8_D 8 4
# 管道符处理
data %>%
unite(Sample2Level, Sample, Level, sep = "_")
## Sample2Level x y
## Sample1 Sample1_A 1 7
## Sample2 Sample2_B 2 8
## Sample3 Sample3_C 3 9
## Sample4 Sample4_D 4 10
## Sample5 Sample5_A 5 1
## Sample6 Sample6_B 6 2
## Sample7 Sample7_C 7 3
## Sample8 Sample8_D 8 4
# 将一列分离为多列
separate(data_unite, Sample2Level, c("Sample", "Level"), sep = "_")
## Sample Level x y
## Sample1 Sample1 A 1 7
## Sample2 Sample2 B 2 8
## Sample3 Sample3 C 3 9
## Sample4 Sample4 D 4 10
## Sample5 Sample5 A 5 1
## Sample6 Sample6 B 6 2
## Sample7 Sample7 C 7 3
## Sample8 Sample8 D 8 4
# 管道符处理
data_unite %>%
separate(Sample2Level, c("Sample", "Level"), sep = "_")
## Sample Level x y
## Sample1 Sample1 A 1 7
## Sample2 Sample2 B 2 8
## Sample3 Sample3 C 3 9
## Sample4 Sample4 D 4 10
## Sample5 Sample5 A 5 1
## Sample6 Sample6 B 6 2
## Sample7 Sample7 C 7 3
## Sample8 Sample8 D 8 4
其他数据操作函数参考官网,如下:
https://tidyr.tidyverse.org/
4. {reshape2}
reshape2是由Hadley Wickham编写的R包,可以轻松地在宽格式(wide-format)和长格式(long-format)之间转换数据。reshape2R包主要有两个主要的功能:melt和cast
-
melt:将wide-format数据“熔化”成long-format数据;
-
cast:获取long-format数据“重铸”成wide-format数据。
这两个命名十分形象,方便记忆,你可以想象成你在处理金属。当你熔化金属成液体滴下时,金属会被拉长(long-format)。如果你把金属它铸成一个模子,它就会变宽(wide-format)。
# 数据融合
data_melt <- melt(data, id.vars = c("Sample", "Level"), variable.name = "Group",
value.name = "Score")
data_melt
## Sample Level Group Score
## 1 Sample1 A x 1
## 2 Sample2 B x 2
## 3 Sample3 C x 3
## 4 Sample4 D x 4
## 5 Sample5 A x 5
## 6 Sample6 B x 6
## 7 Sample7 C x 7
## 8 Sample8 D x 8
## 9 Sample1 A y 7
## 10 Sample2 B y 8
## 11 Sample3 C y 9
## 12 Sample4 D y 10
## 13 Sample5 A y 1
## 14 Sample6 B y 2
## 15 Sample7 C y 3
## 16 Sample8 D y 4
# 管道符处理
data %>%
melt(id.vars = c("Sample", "Level"), variable.name = "Group", value.name = "Score")
## Sample Level Group Score
## 1 Sample1 A x 1
## 2 Sample2 B x 2
## 3 Sample3 C x 3
## 4 Sample4 D x 4
## 5 Sample5 A x 5
## 6 Sample6 B x 6
## 7 Sample7 C x 7
## 8 Sample8 D x 8
## 9 Sample1 A y 7
## 10 Sample2 B y 8
## 11 Sample3 C y 9
## 12 Sample4 D y 10
## 13 Sample5 A y 1
## 14 Sample6 B y 2
## 15 Sample7 C y 3
## 16 Sample8 D y 4
# 长数据转换成宽数据,将melt之后的data_melt转换成原始数据
dcast(data_melt, Sample + Level ~ Group)
## Sample Level x y
## 1 Sample1 A 1 7
## 2 Sample2 B 2 8
## 3 Sample3 C 3 9
## 4 Sample4 D 4 10
## 5 Sample5 A 5 1
## 6 Sample6 B 6 2
## 7 Sample7 C 7 3
## 8 Sample8 D 8 4
# 管道符处理
data_melt %>%
dcast(Sample + Level ~ Group)
## Sample Level x y
## 1 Sample1 A 1 7
## 2 Sample2 B 2 8
## 3 Sample3 C 3 9
## 4 Sample4 D 4 10
## 5 Sample5 A 5 1
## 6 Sample6 B 6 2
## 7 Sample7 C 7 3
## 8 Sample8 D 8 4
其他函数可参考网站,如下:
https://seananderson.ca/2013/10/19/reshape/
5. {tidyverse}
tidyverse是为数据科学设计的R软件包,它包含(ggplot2、dplyr、tidyr、stringr、magrittr、tibble)等一系列热门软件包,学好tidyverse的使用可也让你站上另一个高度,从而高效的处理数据,因此本文档不仅仅做一些案例介绍,而是希望以较为正确的学习方法来介绍R语言,使大家少走弯路,快速入门掌握R语言。这个包好多的函数都在上面的几个包中讲过,但是大飞哥终结的很全面,我就直接采用了,方便大家查找和使用,代码如下:
https://dengfei2013.gitee.io/r-language-advanced/
其他更多函数的讲解参考官网,如下:
https://tidyverse.tidyverse.org
本文使用 文章同步助手 同步
网友评论