说在前面
在上一小节,Immugent介绍了一些统计学描述的基本图表,在本次推文,小编将会进一步讲解对数据集中趋势和离散趋势进行展示的图表。
集中趋势是指一组数据向某一中心值靠拢的趋势,反映了一组数据中心点的位置。常用来描述集中趋势的指标有平均数、中位数。同一总体中不同个体间存在的差异称为变异。不同的观察指标,其变异是不同的;即使是同一观察指标,在不同总体中,其变异的程度也有所不同。常用的描述变异程度的统计指标有极差、四分位数间距、方差、标准差和变异系数。它们也称为离散度测量指标。
那么对于这些数据特征有哪些图表可以展示呢?
代码实现
我们第一想到的,用的最多的就是箱型图。
rm(list=ls())
library("ggpubr")
set.seed(1234)
# Load data
data("ToothGrowth")
df <- ToothGrowth
head(df, 4)
p <- ggboxplot(df, x = "dose", y = "len",
color = "dose", palette =c("#00AFBB", "#E7B800", "#FC4E07"),
add = "jitter", shape = "dose")
p
可以在这个基础上添加上统计学检验。
my_comparisons <- list( c("0.5", "1"), c("1", "2"), c("0.5", "2") )
p + stat_compare_means(comparisons = my_comparisons)+ # Add pairwise comparisons p-value
stat_compare_means(label.y = 50) # Add global p-value
当然,我们也可以画小提琴图来进行展示。
其它种类的图还有很多,如云图、岭图等,但都无外乎展示这几种统计学特征。其中我们可以基于均值/中位值来比较数据之间的差异,使用方差/标准差来观察每一组数据的离散程度。
小结
本次推文给大家介绍了两种对数据集中趋势和离散趋势进行展示的图表,虽然内容不多,但是实际使用价值却很重要。针对数据的平均值,我们可以用来比较组间差异;而针对数据的离散程度,如果我们在做生物学重复时,样本多时,可以将太离群的样本舍弃;样本少时,可以评估组内重复的效果。
本次推文到这里就结束了,下一次我们将具体对已经发表的文献中的图表进行复现,敬请期待!
收录于话题 #照葫芦画图系列
8个
上一篇照葫芦画图之统计描述(三)下一篇照葫芦画图之统计描述(一)
网友评论