在医学研究中经常会遇到这样的数据:两组人群,一组为A处理,一组为B处理。而A、B处理又有不同的强度(浓度高低,时间长短等等)。这时需要绘制类似下面的图来展示
未命名图片.png
上图是很丑的,可美化的地方非常多。这里主要是想介绍一下我应用ggplot2绘制的方法。
另外,大家会有疑问这个数据不是重复测量数据呀?是的,这个数据的类型可能并不合适这个图,大家暂且将dose变量理解为重复测量变量。我相信大家很容易举一反三的
library(ggplot2)
library(ggpubr)
其中ggpubr包是用来提供计算用到的函数的,后面会提到。
然后是绘图
df <- ToothGrowth
ggplot(data = df, aes(x = dose, y = len)) +
stat_summary(geom = "errorbar", width = 0.1, # width控制errorbar的宽度
fun.data = "mean_sdl", fun.args = list(mult = 1),
# fun.data 可选 median_iqr等,这些可能不需要fun.args再输入参数
# list(mult = 1)控制的mean+/- 1*sd, 默认 = 2, 即2 *sd
position = position_dodge(0), aes(color = supp)) +
stat_summary(geom = "line", fun.y = mean, aes(color = supp)) +
stat_summary(geom = "point", fun.y = mean, aes(color = supp))
上述代码的运行结果就是文章开头的那个图。
简单解释一下,
- fun.data参数是一个fun(),可以是自定义函数。但是我发现ggpubr包中提供的一些函数是可以用的,例如median_ipr等。需要注意的是如果是mean_sdl时,要用到fun.args传递mult = 1这个参数给mean_sdl,使得最后显示的是mean+/-sd而不是mean+/-2*sd。
- 另外如果是这种多组的情况,分组的变量要放在stat_summary中,如代码所示。
我为什么会很想学习这个方法呢?熟悉ggpubr的朋友可能会问了,ggpubr直接就能做这个图,费个劲干啥?
我的理由是觉得这个可以帮助初学者(比如我)再次理解ggplot的绘图逻辑之一,统计变换stat_和geom_的关系。ggpubr包的代码逻辑很可能也是这样的(我还是小白,不会看人家包装起来的东西),因为作者写了一系列的统计变化的function。如果纯用ggplot2做的话,需要首先做出来一个统计变换后的数据框,然后在这个数据框的基础上用geom_errorbar函数来作图。
另外理解了这个逻辑和stat_summary这个函数,上述方法是可以推广的,比如给bar图增加errorbar其实原理是一样的。
网友评论