计算两个单细胞dataset的相关性

作者: 生信云笔记 | 来源:发表于2021-08-08 09:13 被阅读0次

计算两个单细胞dataset的相关性
空间组数据和单细胞数据的相关性分析（Seurat）2022-05
Flink中DataSet/DataStream的区别
Spark MLlib机器学习开发指南(2) --基本统计
单细胞转录组学习笔记-21-基因在任意癌症表达量相关性
单细胞细胞注释工具之CHETAH
R语言矩阵相关性计算及其可视化？
R 相关性分析
nature级别图表：单细胞转录组细胞比例统计可视化函数
numpy必知必会-第八天

日常掰瞎

对于bulk-RNA来说，计算两个样本的相关性可以选取共有基因的表达值直接来计算相关系数，从而得到两个样本的关系性。那么单细胞如何计算呢？首先，我们需要明白一点，在单细胞层面我们可以将每个细胞看作是一个样本，这样原始样本就可以看成是细胞样本的集合。这样一来，计算两个原始样本的相关性就变成计算对应细胞样本的相关性了，而细胞样本的相关性计算与bulk-RNA一致。方法明白了，下面咱就来看看具体实现代码吧！

代码展示

这里以10x的数据格式来演示，比如有两个样本A、B，每个样本结果文件有barcodes.tsv、genes.tsv、matrix.mtx三个文件。

library(Seurat)
library(Matrix)
library(ggplot2)

read_count_output <- function(dir) {
  dir <- normalizePath(dir, mustWork = TRUE)
  m <- readMM(paste0(dir, "/", "matrix.mtx"))
  genes <- read.table(paste0(dir, "/", 'genes.tsv'), stringsAsFactors = F,sep='\t',header = F)$V2
  barcodes <- readLines(file(paste0(dir, "/", "barcodes.tsv")))
  colnames(m) <- barcodes
  rownames(m) <- genes
  return(m)
}

countA <- read_count_output('10x_result/sampleA')
countB <- read_count_output('10x_result/sampleB')

over_barcode <- intersect(colnames(countA), colnames(countB))
over_gene <- intersect(rownames(countA), rownames(countB))
sub_countA  <- countA[over_gene, over_barcode]
sub_countB  <- countB[over_gene, over_barcode]

cortest <- function(x,y){
    result <- cor.test(x,y)
    coefficient <- result$estimate
    pvalue <- result$p.value
    return(data.frame(coefficient=coefficient, pvalue=pvalue))
}

countAlist <- as.list(data.frame(countA))
countBlist <- as.list(data.frame(countB))
outcor <- data.frame(t(mapply(cortest, countAlist , countAlist , SIMPLIFY=T)))

ggplot(data.frame(corrlation='corrlation',value=unlist(outcor[,1])),aes(x=corrlation,y=value))+geom_boxplot()+xlab('')+
theme(axis.title = element_text(size=16),axis.text = element_text(size=16))

最后输出相关性箱线图如下：