今天和老板讨论,又学到了如何正确地展示统计的表格,主要分为两种:
1)正态分布的数据
对于正态分布的数据,数据的展示形式应为mean±std
,如下表格所示
对于此类数据,分析两组间差异,应选用参数统计,如
t-test
。多组间差异,选择方差分析
,R中为aov
函数进行检验多组之间的均值是否有差异;如有差异,再使用pairwise.t.test()
进行两两比较,进行多重t检验,这时需要对多重检验的p值进行校正,设置参数p.adjust.method="fdr"
。2) 非正态分布数据
对于非正态分布数据,展示形式应为
median (IQR)
,如下表格所示引自:Exposure to household furry pets influences the gut microbiota of infants at 3-4 months following various birth scenarios
对于此类数据,分析两组间差异,应选用非参统计方法,如
Mann-Whitney
,多组间比较应选用Kruskal-Wallis test
。同时,使用Kruskal-Wallis test
之后,可配套使用Dunn Test
检验去进行两组间的pairwise比较,Dunn Test
检验也可进行fdr矫正。
那么,什么时候应该进行fdr矫正呢?
1、当一组数据进行了多次统计学检验,得到了多个p-value;
2、多组相关的数据进行了统计学检验,得到了多个p-value;
当多组无关的数据进行了统计学检验,得到了多个p-value,此时无需进行p-value矫正。矫正方法较大,一般选择fdr
,这种方法比较温和。
一般p值矫正后,会将p-value控制在p.adjust<=1
,但是我也遇到STAMP
软件的p.adjust
大于1,问了developer,这是计算方法不同而已,并没有限制当p.adjust>1时,将p.adjust全部赋值为1,这也是为什么很多软件算出来的q-value会有很多1。
不过现在也有很多呼声,forget the p-value,至于是否真的需要矫正,是否真的需要将p-value的阈值设为0.05,我认为只要你的故事讲得好,即使不显著,也可以适当放宽。如果严格按照p.adjust<0.05,没有得到任何significant的指标,那不是实验就白做了?
(如有问题,请指正交流,真理越辨越明)
网友评论