本节主要内容:通过举例说明如何在R中改善绘图质量。
。。。。
本章节上半部分内容比较简单,所以略,想要学习的童鞋可以去这里
High correlation does not imply replication
当引进新技术时,人们经常绘制散点图,并分析重复样本间的相关性。高相关性经常被用来说明新技术是可重复的。但是,相关性或许会误导人们。下图是使用一种高通量技术处理重复样本得到的一批数据绘制的散点图:

从左图中,我们可以看出,原始数据呈现出了高度相关性。然而,该数据呈现出了严重的拖尾状态,有95%的数据是低于绿色线条的。。。。(我也是纳闷了为啥说是低于绿色线条
)。
而右图则是基于数据的log值绘制的,虽然相关性在log值下降低,但是左右两种方式下,相关性都接近1。这是否就意味着这些数据是可重复的?为了研究第二次结果对第一次结果的重复性如何,我们需要去分析二者间的差异,见下图:

上图,横坐标为两次结果log值的平均值,y轴是两次结果log值的差。这种图在基因组学文献中被被称为Bland-Altman 图(或 MA图,M代表“minus”,A代表“average”),从图中可以看出,两次重复测量结果间的差异大约等于1(log以2为底),这意味着,如果两次测量结果的均值是相等的,那么应该会观察到2倍的差异才对。拿到这个结果结果后,我们便可以将这个变量与我们想要检测的差异进行比较,并最终得出某技术是否足够精细、足够满足我么的需求。
Misunderstanding Correlation (Advanced)
在基因组学中,经常使用相关性去概括可重复性,但这一做法存在如下3种主要的问题:
(1)对不满足二元正态分布的数据计算相关性
对于二元正态分布的数据来说,使用平均数、标准差和相关性便能够很好地描述数据的分布,但是有很有数据并不呈现这种分布,比如说基因表达数据,这种数据在分布图上会看到一条很肥胖的尾。
定量两次重复测量之间的可重复性的标准做法是计算二者之间的距离():
当可重复性增强时,这个值会变弱,当这个值等于0时,可重复性最强。利用这种矩阵的另一个好处是:如果我们用该值除以0,且假设d的平均值为0,就可以将所得统计量解释为是的标准差。如果认为
是残差的话,那么这个统计量就等于均方根误差(RMSE)。除此之外,这个统计量拥有相同的单位,更易于解释。
(2)相关性不能发现由于平均数改变而引起的不可重复性
相关性分析不行,但是距离矩阵却可,距离矩阵的表达式可以做如下演变:
由于和
分别是x、y的均值,接下来便有:
为了简化,如果我们假设两次测量的方差为1,那么上面的表达式可变为:
其中的便是相关系数,这样的话我么就可以看出距离与相关性之间的直接关系,而且通过
我们还可以看出由于平均数改变而导致的不可重复性。
(3)相关性缺乏单位
下面这段话基本上是按照原文翻译的,但是我并木有理解,他的解释和“缺乏单位”有啥关系。。。
为了进行说明,我们使用了一个公式,这个公式将变量的相关性与那个变量联系起来,再加上偏差
,也就是:
,
的方差越大,
就越难再现
值。距离矩阵仅依赖d的方差便可得出重复性好坏的结论,而相关性却还依赖
的方差,如果
与
互相独立,那么:
这表明,关联性接近1并不一定意味着可重复,而且如果不考虑的方差,我们可以通过增大
的方差就能随意的将相关性的值变得与1很接近。
网友评论