美文网首页生物信息学Cook R数据科学与R语言
ggplot绘图的艺术-3:映射:将数据变量对应到图形属性

ggplot绘图的艺术-3:映射:将数据变量对应到图形属性

作者: 曹务强 | 来源:发表于2017-12-12 23:11 被阅读49次

    1.映射

    在上一节练习ggplot绘图的艺术-2:ggplot2的绘图思想中,我们已经涉及到了映射的概念。

    所谓映射,就是数据集中的数据关联到相应的图形属性过程中一种对应关系。

    映射主要分为以下几种类型:

    • 颜色类:color(颜色或边框颜色)、fill(填充颜色)和alpha(透明度)
    • 形状类:linetype(线型)、size(点的大小或线的宽度)和shape(形状)
    • 位置类:x、y、xmin、xmax、ymin、ymax、xend、yend
    • 特殊类:一类是group和order,另一类是字符串映射

    下面,就以上述的映射关系进行演示:

    #加载所需的包
    library(ggplot2)
    library(dplyr)
    #使用ggplot2进行绘图,建立相应的映射关系
    ggplot(data = dexp, aes(x = Sample, y = Expression))+
             geom_point(aes(color = Gene,
                            size = Length,
                            shape = Group))
    

    以上代码作出图的效果如下:

    图片1.png

    2.分组

    在ggplot中我们大概可以把几何对象分为2种:

    • 个体几何对象:绘制的图像中的每一个点对应数据框中的每一个观测值,如geom_point
    • 群组几何对象:绘制的图像中的每一个对象,对应数据框中多个观测值的统计结果,如geom_boxplot(用于绘制箱线图)

    所以在使用类似于geom_boxplot这一类群组几何对象时,需要进行分组,ggplot默认以离散型变量分组。

    变量按其数值表现是否连续,分为连续变量离散变量离散变量指变量值可以按一定顺序一一列举,通常以整数位取值的变量。在一定区间内可以任意取值的变量叫连续变量,其数值是连续不断的,相邻两个数值可作无限分割,即可取无限个数值。

    #绘制背景图层
    p <- ggplot(data = dexp, aes(x = Sample, y = Expression))
    #添加箱线图层,默认以离散型变量Sample进行分组
    p + geom_boxplot()
    
    图片2.png
    #绘制背景图层
    p <- ggplot(data = dexp, aes(x = Sample, y = Expression))
    #添加箱线图层,指定以Group进行分组
    p + geom_boxplot(aes(group = Group))
    
    图片3.png

    3.分面

    在进行生物信息学数据处理时,我们有时需要按不同的变量进行分组,分别绘制图形。比如,在上面的例子中。我们如果想要以Group分组,分别绘制基因的表达信息,实现一页多图的效果,如何实现呢?这就要涉及到ggplot中的另一个非常重要的概念:分面。
    ggplot中实现分面有两个函数:facet_wrap和facet_grad。

    (1)facet_wrap:以一个变量进行分面

    facet_wrap(facets, nrow = NULL, ncol = NULL, scales = "fixed",
    shrink = TRUE, labeller = "label_value", as.table = TRUE,
    switch = NULL, drop = TRUE, dir = "h", strip.position = "top")

    重要参数:

    • facets:分面参数如~Group,表示用Group变量进行数据分类
    • nrow:绘制图形的行数
    • ncol:绘制图形的列数,一般nrow/ncol只设定一个即可
    • scales:
      fixed,小图都使用统一的坐标
      free:每个小图按照自己的数据自由调整坐标
      free_x:自由调整X轴刻度范围
      free_y:自由调整y轴刻度范围
    ggplot(data = dexp, aes(x = Sample, y = Expression))+
      geom_point(aes(color = Gene,
                     size = Length,
                     shape = Group))+
      facet_wrap(~Group, scales = "free")
    

    效果如下:

    图片4.png
    #以基因进行分面,绘制每个基因的表达量
    ggplot(data = dexp, aes(x = Sample, y = Expression))+
      geom_point()+
      facet_wrap(~Gene, scales = "free", nrow = 10)
    

    结果如下:

    图片5.png

    (2)facet_grid:同时以两个变量进行分面

    facet_grid(facets, margins = FALSE, scales = "fixed", space = "fixed",shrink = TRUE, labeller = "label_value", as.table = TRUE,switch = NULL, drop = TRUE)

    与facet_wrap不同的重要参数:

    • facets:应用两个变量分面,如Gene~Group,意为按Gene分行,按Group分列
    • margins:True,包含所有数据的组
    • space:每张小图的坐标轴宽度,值同scales

    以两个变量Gene和Group进行分面:

    dexp_small<-filter(dexp, Gene %in% paste("G", 1:10, sep = ""))
    ps <- ggplot(data = dexp_small, aes(x = Sample, y = Expression))
    ps + geom_point(aes(color = Length))+
      facet_grid(Gene~Group,scales = "free")
    

    结果如下:

    图片6.png

    相关文章

      网友评论

        本文标题:ggplot绘图的艺术-3:映射:将数据变量对应到图形属性

        本文链接:https://www.haomeiwen.com/subject/xgyoixtx.html