生信分析10：相关性的量化及可视化

作者: 我与生信 | 来源:发表于2023-07-26 10:24 被阅读0次

前一篇推送分享的文献中，作者进行了多种相关性分析来说明转录组数据和ATAC-seq的相关性，本次推送围绕相关性分析展开。

生物信息学中的相关性

Fig 1

相关性分析是指对两个或多个具备相关性的变量元素进行分析，从而衡量两个变量因素的相关密切程度。举个例子，我现在有8份不同条件下的转录组数据（Sample1-8），假如我们想看一下A基因和B基因的相关性，那么在第一份转录组中A基因B基因有个表达量，找出来标在这个图上，在第二份数据中A和B也有个表达量标在这个图上，以此类推，直到把8个点标在图上，可以计算出A和B表达量之间的相关系数（Fig 1）。

相关系数介于-1到1之间，正数代表正的相关性，负数代表负的相关性：

0.8-1.0 极强相关；

0.6-0.8 强相关；

0.4-0.6 中等程度相关；

0.2-0.4 弱相关；

0.0-0.2 极弱相关或无相关。

常用的相关系数

常用的相关系数有以下三种：

（1）Pearson相关系数（PPMCC或PCCs）：皮尔逊相关系数，又称皮尔逊积矩相关系数，是一种线性相关。计算两个基因表达量之间的相关性可用这种。

（2）Spearman相关系数（Spearmans rank correlation coefficient，SRCC）：斯皮尔曼相关系数，是一种等级相关。计算哪些基因的表达与肿瘤的一期、二期、三期、四期相关用这种。

（3）Kendall相关系数：是一种离散型数据或分类型数据的相关性。计算哪些基因与人类性别相关用这种。

Pearson相关系数对离群值敏感，因此在计算时可以去除明显的离群值，Spearman相关系数和Kendall相关系数是基于秩/等级（也就是按大小排序）来计算，可以消除离群值的影响。

具体的计算原理可参考https://zhuanlan.zhihu.com/p/339077538

利用R语言进行相关性分析

Fig 2

Fig 2的示例数据是不同基因在不同样本中的表达量，只展示了前7行。

Fig 3

Fig 3是计算基因之间相关性的代码，不转置可计算样本间的相关性。

Fig 4

Fig 5

Fig 4和Fig 5是相关性的可视化代码及结果展示。

Fig 6

Fig 7

也可以加入显著性水平和相关系数（Fig 6-7）。

文章中相关性分析的应用

文章中的Fig4左是单细胞RNA-seq和单核ATAC-seq的相关性，右图是单核RNA-seq和单核ATAC-seq的相关性。特征是所选择的336个被亚群特异性可及性峰所影响的基因。

所以输入文件可以是这样。图中RNA代表基因的表达量，注意是该cluster的所有细胞的该基因表达量的均值，ATAC代表与该基因对应的ATAC-seq peak区域的reads信号强度，也是该cluster所有细胞的均值。

作者用的是肯德尔相关系数，所以表达量和可及性信号要分别进行归一化。

网友评论

本文标题：生信分析10：相关性的量化及可视化

本文链接：https://www.haomeiwen.com/subject/tilkpdtx.html

延伸阅读

深度阅读

您也可以注册成为美文阅读网的作者，发表您的原创作品、分享您的心情！

生信分析10：相关性的量化及可视化

相关文章

网友评论

延伸阅读

深度阅读

栏目导航

热点阅读