美文网首页
PH525x series - Plots to avoid

PH525x series - Plots to avoid

作者: 3between7 | 来源:发表于2019-11-21 10:35 被阅读0次

本节主要内容:通过举例说明如何在R中改善绘图质量。

。。。。
本章节上半部分内容比较简单,所以略,想要学习的童鞋可以去这里


High correlation does not imply replication

当引进新技术时,人们经常绘制散点图,并分析重复样本间的相关性。高相关性经常被用来说明新技术是可重复的。但是,相关性或许会误导人们。下图是使用一种高通量技术处理重复样本得到的一批数据绘制的散点图:


1574236354333.jpg

从左图中,我们可以看出,原始数据呈现出了高度相关性。然而,该数据呈现出了严重的拖尾状态,有95%的数据是低于绿色线条的。。。。(我也是纳闷了为啥说是低于绿色线条)。

而右图则是基于数据的log值绘制的,虽然相关性在log值下降低,但是左右两种方式下,相关性都接近1。这是否就意味着这些数据是可重复的?为了研究第二次结果对第一次结果的重复性如何,我们需要去分析二者间的差异,见下图:

1574237234721.jpg

上图,横坐标为两次结果log值的平均值,y轴是两次结果log值的差。这种图在基因组学文献中被被称为Bland-Altman 图(或 MA图,M代表“minus”,A代表“average”),从图中可以看出,两次重复测量结果间的差异大约等于1(log以2为底),这意味着,如果两次测量结果的均值是相等的,那么应该会观察到2倍的差异才对。拿到这个结果结果后,我们便可以将这个变量与我们想要检测的差异进行比较,并最终得出某技术是否足够精细、足够满足我么的需求。


Misunderstanding Correlation (Advanced)

在基因组学中,经常使用相关性去概括可重复性,但这一做法存在如下3种主要的问题:

(1)对不满足二元正态分布的数据计算相关性

对于二元正态分布的数据来说,使用平均数、标准差和相关性便能够很好地描述数据的分布,但是有很有数据并不呈现这种分布,比如说基因表达数据,这种数据在分布图上会看到一条很肥胖的尾。

定量两次重复测量之间的可重复性的标准做法是计算二者之间的距离(d_i = x_i -y_i):
\sqrt {\sum_{i=1}^n d_i^2}

当可重复性增强时,这个值会变弱,当这个值等于0时,可重复性最强。利用这种矩阵的另一个好处是:如果我们用该值除以0,且假设d的平均值为0,就可以将所得统计量解释为是d_1,...d_N的标准差。如果认为d是残差的话,那么这个统计量就等于均方根误差(RMSE)。除此之外,这个统计量拥有相同的单位,更易于解释。

(2)相关性不能发现由于平均数改变而引起的不可重复性

相关性分析不行,但是距离矩阵却可,距离矩阵的表达式可以做如下演变:

\frac1n \sum_{i=1}^n(x_i - y_i)^2 = \frac1n\sum_{i=1}^n[(x_i - μ_x) - (y_i - μ_y) + (μ_x - μ_y)]^2

由于μ_xμ_y分别是x、y的均值,接下来便有:

\frac1n \sum_{i=1}^n(x_i - y_i)^2 = \frac1n \sum_{i=1}^n(x_i -μ_x)^2 + \frac1n \sum_{i=1}^n(y_i -μ_y)^2 + (μ_x - μ_y)^2 + \frac1n \sum_{i=1}^n(x_i -μ_x)(y_i -μ_y)

为了简化,如果我们假设两次测量的方差为1,那么上面的表达式可变为:

\frac1n \sum_{i=1}^n(x_i - y_i)^2 = 2 + (μ_x - μ_y)^2 + 2ρ

其中的ρ便是相关系数,这样的话我么就可以看出距离与相关性之间的直接关系,而且通过(μ_x - μ_y)^2我们还可以看出由于平均数改变而导致的不可重复性。

(3)相关性缺乏单位

下面这段话基本上是按照原文翻译的,但是我并木有理解,他的解释和“缺乏单位”有啥关系。。。

为了进行说明,我们使用了一个公式,这个公式将变量的相关性与那个变量联系起来,再加上偏差x,也就是:y = x + dd的方差越大,x + d就越难再现x值。距离矩阵仅依赖d的方差便可得出重复性好坏的结论,而相关性却还依赖x的方差,如果dx互相独立,那么:
cor(x,y) = \frac{1}{\sqrt{1+var(d)/var(x)}}
这表明,关联性接近1并不一定意味着可重复,而且如果不考虑d的方差,我们可以通过增大x的方差就能随意的将相关性的值变得与1很接近。

文章参考

相关文章

  • PH525x series - Plots to avoid

    本节主要内容:通过举例说明如何在R中改善绘图质量。 。。。。本章节上半部分内容比较简单,所以略,想要学习的童鞋可以...

  • PH525x series - Exercises - Line

    本篇文章是PH525x series课程中Linear models and randomness的练习章节,下面...

  • 4. 关于ggplot绘图公式复盘的一些问题3

    Time series with line and path plots[#line] geom_line()和g...

  • 线性回归模型

    在学习PH525x series - Chapter 5 - Linear Models时,觉得有些地方理解起来有...

  • PH525x series - Hierarchical Mod

    在上一篇文章PH525x series - Bayesian Statistics中是将层次模型应用到了棒球运动当...

  • PH525x series - Collinearity

    共线性 当自变量之间存在共线性时,线性回归得到的最小二乘估计的值并不唯一。共线性简单点说就是,设计矩阵中的某几列存...

  • PH525x series - Introduction to

    本章会对线性模型做一个大致的介绍,还是举例说明吧: 例1:自由落体问题 想象自己是16世纪的伽利略,正在研究自由落...

  • PH525x series - Projections

    前面的章节学的是降维、奇异值分解以及主成分分析的大致内容,本篇文章则开始更加详细的介绍这背后的数学原理,首先要学的...

  • PH525x series - Running PCA and

    在PCA相关的章节最后,系列教程的作者又专门写了一章“在R中运行PCA和SVD”,使用的还是tissuesGene...

  • PH525x series - Statistical Mode

    正连续值的分布 在生物学中有很多数据的分布特征是“strictly positive and heavy righ...

网友评论

      本文标题:PH525x series - Plots to avoid

      本文链接:https://www.haomeiwen.com/subject/czyoictx.html