美文网首页
生信分析10:相关性的量化及可视化

生信分析10:相关性的量化及可视化

作者: 我与生信 | 来源:发表于2023-07-26 10:24 被阅读0次

    前一篇推送分享的文献中,作者进行了多种相关性分析来说明转录组数据和ATAC-seq的相关性,本次推送围绕相关性分析展开。

    生物信息学中的相关性

    Fig 1

    相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。举个例子,我现在有8份不同条件下的转录组数据(Sample1-8),假如我们想看一下A基因和B基因的相关性,那么在第一份转录组中A基因B基因有个表达量,找出来标在这个图上,在第二份数据中A和B也有个表达量标在这个图上,以此类推,直到把8个点标在图上,可以计算出A和B表达量之间的相关系数(Fig 1)。

    相关系数介于-1到1之间,正数代表正的相关性,负数代表负的相关性:

    0.8-1.0 极强相关;

    0.6-0.8 强相关;

    0.4-0.6 中等程度相关;

    0.2-0.4 弱相关;

    0.0-0.2 极弱相关或无相关。

    常用的相关系数

    常用的相关系数有以下三种:

    (1)Pearson相关系数(PPMCC或PCCs):皮尔逊相关系数,又称皮尔逊积矩相关系数,是一种线性相关。计算两个基因表达量之间的相关性可用这种。

    (2)Spearman相关系数(Spearmans rank correlation coefficient,SRCC):斯皮尔曼相关系数,是一种等级相关。计算哪些基因的表达与肿瘤的一期、二期、三期、四期相关用这种。

    (3)Kendall相关系数:是一种离散型数据或分类型数据的相关性。计算哪些基因与人类性别相关用这种。

    Pearson相关系数对离群值敏感,因此在计算时可以去除明显的离群值,Spearman相关系数和Kendall相关系数是基于秩/等级(也就是按大小排序)来计算,可以消除离群值的影响。

    具体的计算原理可参考https://zhuanlan.zhihu.com/p/339077538

    利用R语言进行相关性分析

    Fig 2

    Fig 2的示例数据是不同基因在不同样本中的表达量,只展示了前7行。

    Fig 3

    Fig 3是计算基因之间相关性的代码,不转置可计算样本间的相关性。

    Fig 4

    Fig 5

    Fig 4和Fig 5是相关性的可视化代码及结果展示。

    Fig 6

    Fig 7

    也可以加入显著性水平和相关系数(Fig 6-7)。

    文章中相关性分析的应用

    文章中的Fig4左是单细胞RNA-seq和单核ATAC-seq的相关性,右图是单核RNA-seq和单核ATAC-seq的相关性。特征是所选择的336个被亚群特异性可及性峰所影响的基因。

    所以输入文件可以是这样。图中RNA代表基因的表达量,注意是该cluster的所有细胞的该基因表达量的均值,ATAC代表与该基因对应的ATAC-seq peak区域的reads信号强度,也是该cluster所有细胞的均值。

    作者用的是肯德尔相关系数,所以表达量和可及性信号要分别进行归一化。

    相关文章

      网友评论

          本文标题:生信分析10:相关性的量化及可视化

          本文链接:https://www.haomeiwen.com/subject/tilkpdtx.html