本文首发于“生信大碗”公众号,转载请注明出处
前面我们在 一文带你读懂单细胞测序文章中给大家讲解了单细胞测序分析的基本流程,以及单细胞测序数据的下载(一文带你读懂单细胞测序)。今天我们就带着大家看看每一步具体应该怎么操作。
第一步
下载加载R包
#安装包
install.packages('Seurat')
#加载包
library(Seurat)
library(dplyr)
library(patchwork)
第二步
加载数据
pbmc.data <- Read10X(data.dir = "../data/pbmc3k/filtered_gene_bc_matrices/hg19/")
#data.dir 后引号里面的内容是文件的路径,输入文件需整理成以下格式
第三步
创建Seurat对象和数据过滤
pbmc <- CreateSeuratObject(counts = pbmc.data, project = "pbmc3k", min.cells = 3, min.features = 200)
pbmc
#min.cells = 3代表一个基因至少在三个细胞中表达。min.features = 200代表一个细胞中至少检测到两百个基因表达。
第四步
数据质控
#计算线粒体基因比例
pbmc[["percent.mt"]] <- PercentageFeatureSet(pbmc, pattern = "^MT-")
#可视化检测到的基因表达情况及线粒体基因占比
VlnPlot(pbmc, features = c("nFeature_RNA", "nCount_RNA", "percent.mt"), ncol = 3)
#可视化测序深度与线粒体基因占比及检测到基因数的相关性
plot1 <- FeatureScatter(pbmc, feature1 = "nCount_RNA", feature2 = "percent.mt")
plot2 <- FeatureScatter(pbmc, feature1 = "nCount_RNA", feature2 = "nFeature_RNA")
plot1 + plot2
#过滤细胞,保留基因数在200到2500的细胞及线粒体基因占比小于百分之五的细胞。
pbmc <- subset(pbmc, subset = nFeature_RNA > 200 & nFeature_RNA < 2500 & percent.mt < 5)
第五步
数据标准化
pbmc <- NormalizeData(pbmc, normalization.method = "LogNormalize", scale.factor = 10000)
第六步
寻找高变基因
#默认找2000个高变基因
pbmc <- FindVariableFeatures(pbmc, selection.method = "vst", nfeatures = 2000)
#提取表达量变化最显著的10个基因
top10 <- head(VariableFeatures(pbmc), 10)
#可视化高变基因
plot1 <- VariableFeaturePlot(pbmc)plot2 <- LabelPoints(plot = plot1, points = top10, repel = TRUE)
plot1 + plot2
第七步
对所有基因进行归一化处理
all.genes <- rownames(pbmc)pbmc <- ScaleData(pbmc, features = all.genes)
第八步
PCA降维聚类
#肘部图确认PCA数
pbmc <- RunPCA(pbmc, features = VariableFeatures(object = pbmc))
ElbowPlot(pbmc)
#选择主成分个数
pbmc <- FindNeighbors(pbmc, dims = 1:10)
#设置分辨率
pbmc <- FindClusters(pbmc, resolution = 0.5)
第九步
可视化聚类图
pbmc <- RunUMAP(pbmc, dims = 1:10)DimPlot(pbmc, reduction = "umap")
以上就是我们将GEO数据库中的单细胞测序数据下载后经过一系列的分析处理之后得到的单细胞测序聚类的结果,大家有什么不懂的可以在评论区提问哈,下次我们会继续为大家讲解后续的分析。
本文首发于“生信大碗”公众号,转载请注明出处
—END—
网友评论