关于如何用二代测序数据注释单细胞细胞群

作者: 药物型尖端扭转性室性心动过速 | 来源:发表于2022-07-18 22:42 被阅读0次

关于如何用二代测序数据注释单细胞细胞群
sc-ATAC-seq细胞类型注释策略
单细胞||SingleR鉴定细胞类型
单细胞转录组（八）新版SingleR1.1.1细胞注释包的学习笔
单细胞转录组差异表达分析——SCDE
单细胞测序技术
第05周-空间单细胞DNA测序
一文看懂植物单细胞测序怎么做？
celescope操作指南
MD5检验

起因是因为看到了曾老师的一篇推文(https://mp.weixin.qq.com/s/S5TJ2JDOYAOynhjXwTH-FQ)，其中是关于复现一篇cancer research《Single-cell transcriptomic heterogeneity in invasive ductal and lobular breast cancer cells》的细胞分群结果，见下图。

简单解释下图片内容，就是作者将MCF7,T47D,MM134等多个乳腺癌细胞系进行混合成一个样本进行单细胞测序。测序完之后，作者分出了8个细胞群，但这些细胞系之间的marker基因相互之间并不是那么的明显。作者这时候就有了一个特别棒的想法，就是去公共数据库找到相关细胞系的二代测序数据，然后将二代测序数据和单细胞数据进行相关性分析来确定分群结果，具体的复现结果可见我一开始提到的那篇推文。
觉得蛮有意思的，想着自己也跟着曾老师的代码一起复现下，结果看到了这句话

并且曾老师的推送里也没有附带他使用的表达矩阵，怎么办？？只能自己提取呗

1、首先是作者使用的公共数据库的表达矩阵

找了好久，终于supplementary materials and methods找到相应数据来源。可以看到，MCF7,T47,MM134细胞均来自CCL数据库(SRR186687)；SUM44,MCF10A来自GEO数据库(SRP026537,SRP064259)，其中MCF10A在两个项目中都有，我选用的是SRP064259这个项目中的数据；HEK293T是直接下载了GEO数据库中的两个HEK293T的原始表达矩阵，然后取平均值即可。
（这边再说一个我踩坑的点，就是如果你想偷懒，直接去CCL和GEO下载他的raw data，你会发现这三个数据库的数据格式分别是FPKM,CPM和raw count格式，无法将其三者合并，所以只能老老实实的去下载他的fastq文件，自己跑一边上游提取表达矩阵）

我使用的fq文件是下面几个：

之后我们就进行常规流程的表达矩阵提取，首先是fastqc过滤,其中sample.ID文件里是我们的样本名字，如SRR2532360等，至于cleandata和rawdata的目录你们自己修改即可（以下的上游数据处理均由技能树的张娟老师提供）。下面的代码可以保存到脚本里面，使用nohup sh fastp.sh >fastp.log &挂载到后台运行，后同（其中在length这个参数中，我以往一般是设置36，但是我发现CCL数据库的和GEO数据库的read长度分别是102和52，所以根据正规流程，我们其实应该根据质控结果和经验分别设置他的length长度，对两个数据库的fastq数据分别过滤。但我这里只是为了复现，所以就直接使用默认的20）

cleandata=/home/project/data/cleandata/trim_galore
rawdata=/home/project/data/rawdata/
cat sample.ID | while read id
do
  trim_galore --phred33 -q 20  --stringency 3 --fastqc --paired --max_n 3 -o ${cleandata} ${rawdata}/${id}_1.fastq.gz ${rawdata}/${id}_2.fastq.gz
done

接着是hisat2数据比对，我用的是公共数据，所以构建索引省略

index=refdir/server/reference/index/hisat2.2.1/hg38/genome
inputdir=/home/project/data/cleandata/trim_galore
outdir=/home/project/data/Mapping/Hisat2
cat /teach/t_rna/data/airway/sra/sample.ID | while read id
do
  hisat2 -p 5 -x ${index} -1 ${inputdir}/${id}_1_val_1.fq.gz -2 ${inputdir}/${id}_2_val_2.fq.gz 2>${id}.log  | samtools sort -@ 3 -o ${outdir}/${id}.Hisat_aln.sorted.bam -  &&  samtools index ${outdir}/${id}.Hisat_aln.sorted.bam ${outdir}/${id}.Hisat_aln.sorted.bam.bai
done

最后就是featurecount进行表达定量

gtf=/home/data/refdir/server/reference/gtf/ensembl/Homo_sapiens.GRCh38.98.gtf.gz
inputdir=/home/project/data/Mapping/Hisat2
# featureCounts对bam文件进行计数
featureCounts -T 6 -p -t exon -g gene_id -a $gtf -o all.id.txt $inputdir/*.sorted.bam
# 得到表达矩阵
cat all.id.txt | cut -f1,7- > counts.txt
# 处理表头部分省略，大家自己根据需要使用sed处理即可

以上，我们获得了作者的公共数据库raw count文件(上游过程不好解释，初学的小伙伴记得多去找些资料理解下)

2、接下来就简单了，就是对原始表达矩阵的处理和单细胞数据的处理

library(stringr)
library(Seurat)
#1.首先处理单细胞数据，获得各细胞群的平均表达矩阵
{
  #以下所用的文件去文章对应的GSE144320下载即可，作者的表达矩阵颠倒了
counts=read.csv(file = "input/GSM4285803_scRNA_RawCounts.csv",row.names = 1)
counts=as.matrix(counts)
counts=t(counts)
counts=as.data.frame(counts)
meta=read.csv(file="input/GSM4285803_scRNA_metaInfo.csv",row.names = 1)
identical(colnames(counts),rownames(meta))
#获得了表达矩阵和患者信息，构建seurat对象
sce <- CreateSeuratObject(counts, meta.data = meta)
sce #21888 features across 4614 samples within 1 assay 
#查看sce后，发现这是作者已经过滤后的数据
sce <- NormalizeData(sce)
sce <- FindVariableFeatures(sce, nfeatures = 3000)
sce = ScaleData(sce) 
sce <- RunPCA(sce, npcs = 30)
sce <- RunTSNE(sce, dims = 1:30)
sce <- RunUMAP(sce, dims = 1:30)
sce <- FindNeighbors(sce, dims = 1:30)
#这里resolution取0.2才能获得和作者一样的细胞群数目
sce <- FindClusters(sce,  resolution = 0.2, algorithm = 1)
DimPlot(sce)
#最终获得了平均值的表达矩阵，将作者定义好的细胞群，和我们自己分好的细胞群进行保存
av <-AverageExpression(sce, assays = "RNA",group.by = "CellType") 
av2 = AverageExpression(sce, assays = "RNA",group.by = "RNA_snn_res.0.2") 
av=av[["RNA"]];av2=av2[["RNA"]]
}

接下来是处理GEO和CCL的公共数据

#2.处理作者使用的CCL和GEO上的公共数据表达矩阵
{
rawcount1=read.table("input/rawcounts.txt",row.names = 1,sep = "\t",header = T)
rawcount2=read.table("input/GSM1867011_HEK_293_C1_USC_RNA_40.csv",row.names = 1,sep = "\t",header = T)
rawcount3=read.table("input/GSM1867012_HEK_293_C2_USC_RNA_41.csv",row.names = 1,sep = "\t",header = T)
identical(rownames(rawcount2),rownames(rawcount3))
rawcount23=cbind(rawcount2,rawcount3)
colnames(rawcount23)=c("GSM1867011","GSM1867012")
rownames(rawcount23)=str_sub(rownames(rawcount23),1,15)#这个需要提前确定，.号前面的ENSG编号没有重复
rawcount23=as.data.frame(rowSums(rawcount23)/2)
colnames(rawcount23)="HEK293T";colnames(rawcount1)=c("MCF10A","SUM44","MDAMB134","MCF7","T47D")
#以上是rawcount矩阵，现在转化为cpm表达矩阵
#扫了一遍发现，HEK293T的rawcount下载下来后数值都很高，而且没有0值，猜测作者在上传前就已经对原始矩阵进行过过滤
#既然如此，我们就不对我们的表达矩阵进行过滤，与HEK293T的rawcount进行合并即可
library(edgeR)
tmp=intersect(rownames(rawcount1),rownames(rawcount23))
length(tmp);dim(rawcount1);dim(rawcount23)
#获得最后的合并后的表达矩阵，进行cpm转换，需要log，不然差异过大，见https://cloud.tencent.com/developer/article/1625229
rawcount=cbind(rawcount1[tmp,],rawcount23[tmp,])
colnames(rawcount)[6]="HEK293T"
cpmcount=log2(cpm(rawcount)+1)
#进行基因id的转换
library(clusterProfiler)
library(org.Hs.eg.db)
id2symbol <- bitr(rownames(cpmcount), 
                  fromType = "ENSEMBL", 
                  toType = "SYMBOL", 
                  OrgDb = org.Hs.eg.db)
dim(id2symbol)
table(duplicated(id2symbol$SYMBOL))#发现有重复,去重
id2symbol = id2symbol[!duplicated(id2symbol$SYMBOL),]
dim(id2symbol)
cpmcount=cpmcount[id2symbol$ENSEMBL,]
rownames(cpmcount)=id2symbol$SYMBOL
save(cpmcount,av,sce,av2,file="Rdata/section8.Rdata")
}

3.其中av和cpmcount我们都获得了，接下来就开始相关性表达矩阵的分析

{
  #首先是作者已经定义好的细胞群
load(file="Rdata/section8.Rdata")
head(av)
av=as.data.frame(av);cpmcount=as.data.frame(cpmcount)
dim(av);dim(cpmcount)
av=av[intersect(rownames(av),rownames(cpmcount)),]
cpmcount=cpmcount[intersect(rownames(av),rownames(cpmcount)),]
dim(av);dim(cpmcount)
data_merged=cbind(av,cpmcount)
tt <- cor(data_merged,method = "pearson")
tt1 <- tt[1:8,9:14]
pheatmap::pheatmap(tt1) 
#接着是我们自己未定义过的细胞群
head(av2)
av2=as.data.frame(av2);cpmcount=as.data.frame(cpmcount)
dim(av2);dim(cpmcount)
av2=av2[intersect(rownames(av2),rownames(cpmcount)),]
cpmcount=cpmcount[intersect(rownames(av2),rownames(cpmcount)),]
dim(av2);dim(cpmcount)
data_merged=cbind(av2,cpmcount)
#进行相关性分析
tt <- cor(data_merged,method = "pearson")
tt1 <- tt[1:8,9:14]
pheatmap::pheatmap(tt1,cluster_rows = F,cluster_cols = F)
}

在进行相关性分析后，我发现，我使用cpm数据做出来的数据并没有曾老师的热图显著，很明显用我的热图去进行细胞群的划分十分牵强。我猜测可能是上游数据中，我和曾老师在数据处理中的参数设置问题，但我没有曾老师的原始代码，现在也无从考证。

左边是曾老师的，右边是我的

那现在属于复现成功了吗？？我突然想到，既然我们的根本目的只是为了将其分群，那我们只需要cluster_x群细胞在某个种类细胞系中的相关性结果即可。即当我们去计算总体的相关性时，cluster之间时会相互影响的。所以，我们对结果进行scale处理。

pheatmap::pheatmap(tt1,cluster_rows = F,cluster_cols = F,scale = "column") 
#这里我确实不知道该怎么解释，请大家自行理解下

之后，就得到和作者以及曾老师一模一样的相关性热图了；；可见数据总体的表达还是没有问题的，可能就是上游的一些参数处理问题

与作者和曾老师的结果相同

复现作者的图（具体代码就不贴了，具体可见曾老师写的推文《如果你觉得相关性热图不好看，或者太简陋》）
！！！！需要注意的是，在你获得相关性矩阵后，在画图前，也要和上面一样scale一下

按照作者的样子展现

写在文末的几句话：花了好几天的时间磕磕碰碰的把曾老师的这篇推文给复现出来，花费时间最长的竟然还是在获得公共数据库表达矩阵那里。我整篇推文基本把二代测序的上游数据处理和seurat结构给简单的回顾了一遍，包括我在找这些数据时候遇到的各种坑。授人以鱼不如授人以渔，多敲代码多犯错，才能更好的进步。

药物型尖端扭转型室性心动过速：一个白天上手术，晚上写代码的苦逼外科医生φ(．．)

关于如何用二代测序数据注释单细胞细胞群
起因是因为看到了曾老师的一篇推文(https://mp.weixin.qq.com/s/S5TJ2JDOYAOyn...
sc-ATAC-seq细胞类型注释策略
解释任何单细胞测序数据的起点都是对给定数据集中的细胞簇进行注释。由于缺乏专门设计的工具以及在单细胞ATAC-seq...
单细胞||SingleR鉴定细胞类型
SingleR是用于单细胞RNA测序（scRNAseq）数据的自动注释方法（Aran et al.2019）。给定...
单细胞转录组（八）新版SingleR1.1.1细胞注释包的学习笔
SingleR是用于单细胞RNA测序（scRNAseq）数据的自动注释方法一、内置数据集下载与加载用函数下载参...
单细胞转录组差异表达分析——SCDE
哎呀，终究还是绕不过差异表达分析。单细胞测序，测得还是转录组数据，和bluk data的差别就是单细胞测序存在许多...
单细胞测序技术
单细胞测序的知识系统学习单细胞转录组测序scRNA-Seq(一) 单细胞转录组测序主要步骤 RNA molecul...
第05周-空间单细胞DNA测序
空间单细胞DNA测序空间单细胞DNA测序技术：Topographic Single Cell Sequencin...
一文看懂植物单细胞测序怎么做？
作者：椰子糖审稿：童蒙编辑：amethyst 随着单细胞测序技术的突破，单细胞测序的时代已然到来。2018年单细胞...
celescope操作指南
CeleScope是一款由新格元生物科技有限公司自主研发的，用于处理新格元单细胞产品测序数据的软件。可从二代测序下...
MD5检验
在传输较大数据的时候，常常需要在Linux中进行文件的MD5校验。如测序数据几十G，单细胞测序数据几百G的矩阵，如...