美文网首页生物信息学Cook R数据科学与R语言
ggplot绘图的艺术-3:映射:将数据变量对应到图形属性

ggplot绘图的艺术-3:映射:将数据变量对应到图形属性

作者: 曹务强 | 来源:发表于2017-12-12 23:11 被阅读49次

1.映射

在上一节练习ggplot绘图的艺术-2:ggplot2的绘图思想中,我们已经涉及到了映射的概念。

所谓映射,就是数据集中的数据关联到相应的图形属性过程中一种对应关系。

映射主要分为以下几种类型:

  • 颜色类:color(颜色或边框颜色)、fill(填充颜色)和alpha(透明度)
  • 形状类:linetype(线型)、size(点的大小或线的宽度)和shape(形状)
  • 位置类:x、y、xmin、xmax、ymin、ymax、xend、yend
  • 特殊类:一类是group和order,另一类是字符串映射

下面,就以上述的映射关系进行演示:

#加载所需的包
library(ggplot2)
library(dplyr)
#使用ggplot2进行绘图,建立相应的映射关系
ggplot(data = dexp, aes(x = Sample, y = Expression))+
         geom_point(aes(color = Gene,
                        size = Length,
                        shape = Group))

以上代码作出图的效果如下:

图片1.png

2.分组

在ggplot中我们大概可以把几何对象分为2种:

  • 个体几何对象:绘制的图像中的每一个点对应数据框中的每一个观测值,如geom_point
  • 群组几何对象:绘制的图像中的每一个对象,对应数据框中多个观测值的统计结果,如geom_boxplot(用于绘制箱线图)

所以在使用类似于geom_boxplot这一类群组几何对象时,需要进行分组,ggplot默认以离散型变量分组。

变量按其数值表现是否连续,分为连续变量离散变量离散变量指变量值可以按一定顺序一一列举,通常以整数位取值的变量。在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。

#绘制背景图层
p <- ggplot(data = dexp, aes(x = Sample, y = Expression))
#添加箱线图层,默认以离散型变量Sample进行分组
p + geom_boxplot()
图片2.png
#绘制背景图层
p <- ggplot(data = dexp, aes(x = Sample, y = Expression))
#添加箱线图层,指定以Group进行分组
p + geom_boxplot(aes(group = Group))
图片3.png

3.分面

在进行生物信息学数据处理时,我们有时需要按不同的变量进行分组,分别绘制图形。比如,在上面的例子中。我们如果想要以Group分组,分别绘制基因的表达信息,实现一页多图的效果,如何实现呢?这就要涉及到ggplot中的另一个非常重要的概念:分面。
ggplot中实现分面有两个函数:facet_wrap和facet_grad。

(1)facet_wrap:以一个变量进行分面

facet_wrap(facets, nrow = NULL, ncol = NULL, scales = "fixed",
shrink = TRUE, labeller = "label_value", as.table = TRUE,
switch = NULL, drop = TRUE, dir = "h", strip.position = "top")

重要参数:

  • facets:分面参数如~Group,表示用Group变量进行数据分类
  • nrow:绘制图形的行数
  • ncol:绘制图形的列数,一般nrow/ncol只设定一个即可
  • scales:
    fixed,小图都使用统一的坐标
    free:每个小图按照自己的数据自由调整坐标
    free_x:自由调整X轴刻度范围
    free_y:自由调整y轴刻度范围
ggplot(data = dexp, aes(x = Sample, y = Expression))+
  geom_point(aes(color = Gene,
                 size = Length,
                 shape = Group))+
  facet_wrap(~Group, scales = "free")

效果如下:

图片4.png
#以基因进行分面,绘制每个基因的表达量
ggplot(data = dexp, aes(x = Sample, y = Expression))+
  geom_point()+
  facet_wrap(~Gene, scales = "free", nrow = 10)

结果如下:

图片5.png

(2)facet_grid:同时以两个变量进行分面

facet_grid(facets, margins = FALSE, scales = "fixed", space = "fixed",shrink = TRUE, labeller = "label_value", as.table = TRUE,switch = NULL, drop = TRUE)

与facet_wrap不同的重要参数:

  • facets:应用两个变量分面,如Gene~Group,意为按Gene分行,按Group分列
  • margins:True,包含所有数据的组
  • space:每张小图的坐标轴宽度,值同scales

以两个变量Gene和Group进行分面:

dexp_small<-filter(dexp, Gene %in% paste("G", 1:10, sep = ""))
ps <- ggplot(data = dexp_small, aes(x = Sample, y = Expression))
ps + geom_point(aes(color = Length))+
  facet_grid(Gene~Group,scales = "free")

结果如下:

图片6.png

相关文章

网友评论

    本文标题:ggplot绘图的艺术-3:映射:将数据变量对应到图形属性

    本文链接:https://www.haomeiwen.com/subject/xgyoixtx.html