单细胞分析世界里数据结构多种多样,主流的四种数据结构分别是Bioconductor主导的SingleCellExperiment,Seurat中的SeuratObject格式,scanpy中的AnnData格式,以及大型数据存储的loom格式。通常一种数据结构对应的内容可以包含所有的分析,例如seurat就可以一用到底,那么我们只要掌握好其中一种数据结构就基本够用,但也许这样就可能会错过其他比较好用的函数。为了更深入的了解更多好用的函数,就可以来看看各种数据结构的转换。[初学scrna-seq可能并不理解slot,slot我理解的就是一个一个集装箱,把这些集装箱装起来就是你的SeuratObject,集装箱内部又有不同的分块矩阵,需要你自己一点点加进去,使用的时候SeuratObject@slot$slot下的matrix(也可以用双中括号)@中slot下的第二层矩阵调用
各种数据结构的介绍
单细胞数据中每一个基因可以看做是单细胞的一个特征,因此单细胞数据中每一个细胞就有n个特征,在空间上可以看做是细胞具有的n个特征维度。
1、SeuratObject
单细胞数据中的常用对象是seurat对象,主要用在seurat包、monocle包等单细胞分析的R包中。seurat对象结构包含以下这些slots。
有人把seurat对象比作是流水线上的具有不同盒子的容器,经过不同的工序,会在不同的盒子里(slots)增加内容,而这部分工序就叫convertor,包括NormallizeData()、FindVariableFeeature()等,而在每一步工序中对数据进行监管,控制的工具就叫Inspector,包括VlnPlot(),pbmc[['RNA']]@data等。
例如构建一个seurat对象,那么在这个对象中包含哪些内容呢?
slot | function |
---|---|
assays | A list of assays within this object |
meta.data | Cell-level meta data |
active.assay | Name of active, or default, assay |
active.ident | Identity classes for the current object |
graphs | A list of nearest neighbor graphs |
reductions | A list of DimReduc objects |
project.name | User-defined project name (optional) |
tools | Empty list. Tool developers can store any internal data from their methods here |
misc | Empty slot. User can store additional information here |
version | Seurat version used when creating the objec |
Assays:assays里有一个元素“RNA”,访问assays对象的内部结构可以直接跟中括号,例如pbmc[['RNA']]。slot下的第一层用[[]],第二层用@。例如pbmc[['RNA']]@data
1.1. 数据结构及内容
Assays
默认情况下,我们是对Seurat中的RNA的Assay进行操作。可以通过@active.assay
查看当前默认的assay,通过DefaultAssay()
更改当前的默认assay。
结构
counts 存储原始数据,是稀疏矩阵
data存储logNormalize()标准化的data。总表达式对每个单元格的要素表达式度量进行标准化,将其乘以比例因子(默认为10,000),并对结果进行对数转换
scale.data#存储 ScaleData()缩放后的data,此步骤需要时间久。
meta.data
元数据,对每个细胞的描述。一般的meta.data包括orig.ident, nCount_RNA, nFeature_RNA, 以及计算后的percent.mt,RNA_snn_res.0.5等
可以通过
pbmc$percent.mt
或pbmc[['percent.mt']]
来调用、操作
reduction
降维后的每个细胞的坐标信息,包括pca,tsne,umap等
1.2 对象操作
① 通过结构图上的@,$符号依次取
② 两个中括号操作,pbmc[[ ]]。
教程中,pbmc[['percent.MT']]向meta.data添加 percent.MT 这一列。
pbmc[[]],中括号取的是上面结构图中的二级数据名称
- @和[[]] 两种方法的区别是?
如果取的一级结构(一级结构指slot)Assays的下属内容:
无差别
> class(pbmc[['RNA']])
[1] "Assay"
attr(,"package")
[1] "Seurat"
> class(pbmc@assays$RNA)
[1] "Assay"
attr(,"package")
[1] "Seurat"
如果是一级结构meta.data里的下属内容:
返回的数据类型不同
> class(pbmc[['nCount_RNA']])
[1] "data.frame"
> class(pbmc@meta.data$nCount_RNA)
[1] "numeric"
pbmc[['nCount_RNA']]
取出来,是所有细胞的nCount_RNA,包含细胞信息,数据框
而pbmc@meta.data$nCount_RNA
取出来的是单独nCount_RNA一列,是向量
如果取的一级结构里reductions的下属内容:
无差别
> class(pbmc[['pca']])
[1] "DimReduc"
attr(,"package")
[1] "Seurat"
> class(pbmc@reductions$pca)
[1] "DimReduc"
attr(,"package")
[1] "Seurat"
1.3seurat常用函数的应用
对象信息使用标准R函数可以快速轻松地获得有关Seurat对象的摘要信息。可以使用dim
,ncol
和nrow
函数找到对象的形状/尺寸。细胞和特征名称可以分别使用colnames
和rownames
函数或dimnames
函数找到。通过使用names
,可以找到Seurat对象中包含的Assay
,DimReduc
和Graph
对象的名称向量。
# The following examples use the PBMC 3k dataset
> pbmc
An object of class Seurat
13714 features across 2638 samples within 1 assay
2 dimensional reductions calculated: pca, tsne
# nrow and ncol provide the number of features and cells in the active assay, respectively
# dim provides both nrow and ncol at the same time
> dim(x = pbmc)
[1] 13714 2638
# In addtion to rownames and colnames, one can use dimnames
# which provides a two-length list with both rownames and colnames
> head(x = rownames(x = pbmc))
[1] "AL627309.1" "AP006222.2" "RP11-206L10.2" "RP11-206L10.9"
[5] "LINC00115" "NOC2L"
> head(x = colnames(x = pbmc))
[1] "AAACATACAACCAC" "AAACATTGAGCTAC" "AAACATTGATCAGC" "AAACCGTGCTTCCG"
[5] "AAACCGTGTATGCG" "AAACGCACTGGTAC"
# A vector of names of associated objects can be had with the names function
# These can be passed to the double [[ extract operator to pull them from the Seurat object
> names(x = pbmc)
[1] "RNA" "pca" "tsne"
可以使用 "[[" 来提取特定的Assay
,DimReduc
或Graph
对象。还可以使用 "[[" 将新对象添加到Seurat对象中;Seurat将找出新的关联对象在Seurat
对象中的位置。
> pbmc[['RNA']]
Assay data with 13714 features for 2638 cells
Top 10 variable features:
PPBP, DOK3, NFE2L2, ARVCF, YPEL2, UBE2D4, FAM210B, CTB-113I20.2, GBGT1,
GMPPA
> pbmc[['tsne']]
A dimensional reduction object with key tSNE_
Number of dimensions: 2
Projected dimensional reduction calculated: FALSE
Jackstraw run: FALSE
使用GetAssayData
函数可以从Seurat对象访问数据。可以使用SetAssayData
将数据添加到counts
,data
或scale.data
插槽中。新数据必须具有与当前数据相同顺序的相同细胞。添加到counts'或
data`中的数据必须具有与当前数据相同的features。
> GetAssayData(object = pbmc, slot = 'scale.data')[1:3, 1:3]
AAACATACAACCAC AAACATTGAGCTAC AAACATTGATCAGC
AL627309.1 -0.06547546 -0.10052277 -0.05804007
AP006222.2 -0.02690776 -0.02820169 -0.04508318
RP11-206L10.2 -0.03596234 -0.17689415 -0.09997719
# SetAssayData example...
可以使用单个[
或使用<article class="_2rhmJa"来访问细胞水平注释数据。尽管已经为它启用了制表符自动完成功能,使其成为交互式使用的理想选择,但是使用
<article class="_2rhmJa"来访问意味着一次只能提取一点数据。也可以使用单个[
或使用AddMetaData
添加细胞水平注释数据。
# Cell-level meta data is stored as a data frame
# Standard data frame functions work on the meta data data frame
> colnames(x = pbmc[])
[1] "nGene" "nUMI" "orig.ident" "percent.mito" "res.0.6"
# One can pull multiple values from the data frame at any time
> head(x = pbmc[c('nUMI', 'percent.mito')])
nUMI percent.mito
AAACATACAACCAC 2421 0.030177759
AAACATTGAGCTAC 4903 0.037935958
AAACATTGATCAGC 3149 0.008897363
AAACCGTGCTTCCG 2639 0.017430845
AAACCGTGTATGCG 981 0.012244898
AAACGCACTGGTAC 2164 0.016643551
# The $ sigil can only pull bit of meta data at a time; however, tab-autocompletion
# has been enabled for the $ sigil, making it ideal for interactive use
> head(x = pbmc$percent.mito)
percent.mito
AAACATACAACCAC 0.030177759
AAACATTGAGCTAC 0.037935958
AAACATTGATCAGC 0.008897363
AAACCGTGCTTCCG 0.017430845
AAACCGTGTATGCG 0.012244898
AAACGCACTGGTAC 0.016643551
# Passing `drop = TRUE` will turn the meta data into a names vector
# with each entry being named for the cell it corresponds to
> head(x = pbmc['res.0.6', drop = TRUE])
AAACATACAACCAC AAACATTGAGCTAC AAACATTGATCAGC AAACCGTGCTTCCG AAACCGTGTATGCG
"0" "2" "0" "1" "5"
AAACGCACTGGTAC
"0"
# Add meta data example
HVFInfo
函数从Assay
对象中提取特征均值和离散度。可变特征向量可以通过VariableFeatures
函数提取。VariableFeatures
也可以设置可变特征向量。
# HVFInfo pulls mean, dispersion, and dispersion scaled
# Useful for viewing the results of FindVariableFeatures
> head(x = HVFInfo(object = pbmc))
mean dispersion dispersion.scaled
AL627309.1 0.013555659 1.432845 -0.6236875
AP006222.2 0.004695980 1.458631 -0.5728009
RP11-206L10.2 0.005672517 1.325459 -0.8356099
RP11-206L10.9 0.002644177 0.859264 -1.7556304
LINC00115 0.027437275 1.457477 -0.5750770
NOC2L 0.376037723 1.876440 -0.4162432
# VariableFeatures both accesses and sets the vector of variable features
> head(x = VariableFeatures(object = pbmc))
[1] "PPBP" "DOK3" "NFE2L2" "ARVCF" "YPEL2" "UBE2D4"
# Set variable features example
可以通过Stdev
找到Seurat对象中存储的DimReduc
的标准差向量。
> Stdev(object = pbmc, reduction.use = 'pca')
[1] 5.666584 4.326466 3.952192 3.638124 2.191529 1.996551 1.877891 1.798251
[9] 1.766873 1.753684 1.731568 1.720525 1.718079 1.715879 1.707009 1.702660
[17] 1.697318 1.692549 1.686149 1.683967
可以通过以下方法找到Seurat类:
library(Seurat)
utils::methods(class = 'Seurat')
[
[<-
[[
[[<-
colMeans
colSums
Command
DefaultAssay
DefaultAssay<-
dimnames
dim
GetAssayData
GetAssay
HVFInfo
Idents
Idents<-
merge
names
SetAssayData
Stdev
subset
SubsetData
VariableFeatures
VariableFeatures<-
WhichCells
#数据准备
library(Seurat)
pbmc <- readRDS(file = "pbmc/pbmc3k_final.rds")
set.seed(42)
pbmc$replicate <- sample(c("rep1", "rep2"), size = ncol(pbmc), replace = TRUE) #随机给样本设置两个样本,分别为rep1,rep2,添加到metadata中。replace =T,有放回抽样
DimPlot(pbmc, reduction = "umap")
- 切换细胞ident,简单统计各样本细胞cluster 频率信息
#切换细胞ident,从细胞名称转为样本rep1,rep2。绘图看批次性
pbmc$CellType <- Idents(pbmc)
Idents(pbmc) <- "replicate"
DimPlot(pbmc, reduction = "umap")
Idents(pbmc) <- "CellType" #转变回来,下一步使用
#查看不同样本、细胞名称的 细胞数量
table(Idents(pbmc))
table(pbmc$replicate)
prop.table(table(Idents(pbmc)))#计算每种细胞频率
table(Idents(pbmc), pbmc$replicate)#计算每个样本、每种细胞的数量
prop.table(table(Idents(pbmc), pbmc$replicate), margin = 2)#计算每个重复、每种细胞的频率,margin=2,按照列的值 频率和为1来计算。因为列是样本,每个样本的细胞频率和为1。
- 选择特定细胞,取子集
#取子集的几种方法
subset(pbmc, subset = MS4A1 > 1)
subset(pbmc, subset = replicate == "rep2")
subset(pbmc, idents = c("NK", "B"))
subset(pbmc, idents = c("NK", "B"), invert = TRUE) # 提取除了NK,B细胞之外的细胞
WhichCells(pbmc, idents = "NK")# 返回是NK细胞的细胞名
- 提取表达矩阵
GetAssayData()
GetAssayData(object, slot, assay) # slot = counts, data, scale.data
GetAssayData(object = pbmc_small[["RNA"]], slot = "data")[1:5,1:5]#出来的是稀疏矩阵,所以用as.matrix()直接转换
##①从Assay中提取
d <- as.matrix(GetAssayData(object = pbmc_small[["RNA"]], slot = "data")[1:5,1:5])
#前五个基因和前五个细胞
##②从Seurat对象中提取
f <- as.matrix(GetAssayData(object = pbmc_small, slot = "counts")[1:5,1:5])
#提取NK细胞的表达矩阵,用于其他分析
nk.raw.data <- as.matrix(GetAssayData(pbmc, slot = "counts")[, WhichCells(pbmc, ident = "NK")]) #直接提取NK细胞的原始表达矩阵
- 计算cluster内平均基因表达量
AverageExpression()
cluster.averages <- AverageExpression(pbmc) #返回一个list元素的list。这个list元素是data.frame的list,cluster.averages$RNA$`Memory CD4 T`
head(cluster.averages[["RNA"]][, 1:5])
#将计算结果返回seurat用于下步骤计算【将空格替换成_,不然ggplot2会fail】
orig.levels <- levels(pbmc)#clusters
Idents(pbmc) <- gsub(pattern = " ", replacement = "_", x = Idents(pbmc))
orig.levels <- gsub(pattern = " ", replacement = "_", x = orig.levels)
levels(pbmc) <- orig.levels
##levels 和Ident的cluster名称里的空格都要改
cluster.averages <- AverageExpression(pbmc, return.seurat = TRUE)#计算结果存在 cluster.averages[['RNA']]@data 中, 是matrix
cluster.averages
CellScatter(cluster.averages, cell1 = "NK", cell2 = "CD8_T")
#添加样本作为细胞身份
cluster.averages <- AverageExpression(pbmc, return.seurat = TRUE, add.ident = "replicate")
CellScatter(cluster.averages, cell1 = "CD8_T_rep1", cell2 = "CD8_T_rep2")
DoHeatmap(cluster.averages, features = unlist(TopFeatures(pbmc[["pca"]], balanced = TRUE)), size = 3, draw.lines = FALSE)
#TopFeatures中balanced的参数,看了帮助文档,没明白。试一下。
#TopFeatures适用对象就是降维后的对象,单细胞测序中pbmc[['pca']]可用,试了下pbmc[["umap"]],报错。溢出边界。
> unlist(TopFeatures(pbmc[["pca"]], balanced = TRUE))
positive1 positive2 positive3 positive4 positive5 positive6 positive7
"CST3" "TYROBP" "LST1" "AIF1" "FTL" "FTH1" "LYZ"
positive8 positive9 positive10 negative1 negative2 negative3 negative4
"FCN1" "S100A9" "TYMP" "MALAT1" "LTB" "IL32" "IL7R"
negative5 negative6 negative7 negative8 negative9 negative10
"CD2" "B2M" "ACAP1" "CD27" "STK17A" "CTSW"
> unlist(TopFeatures(pbmc[["pca"]], balanced = FALSE))
[1] "MALAT1" "SPI1" "IFITM3" "SERPINA1" "LGALS2" "CTSS"
[7] "S100A8" "LGALS1" "CFD" "FCER1G" "TYMP" "S100A9"
[13] "FCN1" "LYZ" "FTH1" "FTL" "AIF1" "LST1"
[19] "TYROBP" "CST3"
2、AnnData
随着单细胞技术的发展,单细胞测序的技术门槛也越来越低,单细胞的数据呈几何倍数的增加,要分析大百万级细胞数量的单细胞样本,给依赖R分析的软件带来了一定的困难(由于R的存储方式的限制)。于是就有了python版的对象AnnData(scanpy模块):
image
可以通过 sc.pl.highest_expr_genes(adata, n_top=20)获取表达量top20的基因。
image也可以通过对象处理对数据进行过滤
sc.pp.filter_cells(adata, min_genes=200) # 去除表达基因200以下的细胞 sc.pp.filter_genes(adata, min_cells=3) # 去除在3个细胞以下表达的基因
在anndata对象中对线粒体基因进行过滤,以及标准化数据和后续的差异分析及聚类的代码如下:
mito_genes = adata.var_names.str.startswith('MT-')
adata.obs['percent_mito'] = np.sum( adata[:, mito_genes].X, axis=1).A1 / np.sum(adata.X, axis=1).A1
adata.obs['n_counts'] = adata.X.sum(axis=1).A1
sc.pl.scatter(adata, x='n_counts', y='percent_mito')
sc.pl.scatter(adata, x='n_counts', y='n_genes')
adata = adata[adata.obs['n_genes'] < 4000, :]
adata = adata[adata.obs['percent_mito'] < 0.3, :]
#数据标准化
sc.pp.normalize_per_cell(adata, counts_per_cell_after=1e4)
sc.pp.log1p(adata)
sc.pp.highly_variable_genes(adata, min_mean=0.0125, max_mean=3, min_disp=0.5)
sc.pl.highly_variable_genes(adata)
##保留差异基因进行后续分析
adata = adata[:, adata.var['highly_variable']]
sc.pp.regress_out(adata, ['n_counts', 'percent_mito'])
sc.pp.scale(adata, max_value=10)
sc.tl.pca(adata, svd_solver='arpack') # PCA分析 sc.pl.pca(adata, color='CST3') #绘图
##碎石图,选择多少PCA进行后续分析,用于计算细胞间的相邻距离
sc.pl.pca_variance_ratio(adata, log=True)
adata.write("pca_results.h5ad")
聚类分析
sc.pp.neighbors(adata, n_neighbors=10, n_pcs=40) ##neighbor个数越多,聚类越少
sc.tl.umap(adata)
sc.pl.umap(adata, color=['CST3', 'NKG7', 'PPBP'])
sc.tl.louvain(adata)
sc.pl.umap(adata, color=['louvain'])
由上也可以看出anndata对象具有切片特性,熟悉pandas的人,操作起来就很熟练。
3、loom
Loom是非常大的omics数据集的有效文件格式,由主矩阵、可选的附加层、可变数量的行和列注释以及稀疏的图形对象组成。我们使用loom文件存储单细胞基因表达数据:主矩阵包含实际的表达值(每个细胞一列,每个基因一行);行注释和列注释包含基因和细胞的元数据,例如名称、染色体、位置(对于基因)和品系、性别、年龄(对于细胞)。图对象用于存储用于基于图的聚类的最近邻图。
image在这里附上loom处理的相关代码,以供大家参考:
##创建loom对象
library(Seurat)
library(loomR)
library(dplyr)
pbmc_small_loom<-create(filename = "pbmc.small.loom",data = pbmc_small@assays$RNA@counts,overwrite = T)
#这里也可以直接as.loom()
##查看loom文件中的信息
pbmc_small_loom pbmc_small_loom$matrix[1:6,1:6] pbmc_small_loom$col.attrs$CellID[1:6] pbmc_small_loom$row.attrs$Gene[1:6]
##提取loom中的信息:
pbmc_small_loom$get.attribute.df(MARGIN = 1,attributes = "Gene")[1:6,] pbmc_small_loom$get.attribute.df(MARGIN = 2,attributes = "CellID")[1:6,]
##添加信息
# Generate random ENSEMBL IDs for demonstration purposes
ensembl.ids <- paste0("ENSG0000", 1:length(x = pbmc_small_loom$row.attrs$Gene[]))
pbmc_small_loom$add.row.attribute(list(ensembl.id = ensembl.ids), overwrite = TRUE) pbmc_small_loom$get.attribute.df(MARGIN = 1)[1:6,]
##进行seurat操作
pbmc_small_seurat<-as.Seurat(pbmc_small_loom) pbmc_small_seurat<-NormalizeData(pbmc_small_seurat)%>%ScaleData()
##关闭loom
pbmc_small_loom$close_all()
操作loom结构时,一定注意关闭loom文件,否则再次读取的时候,就会有异常。
4、SingleCellExperiment
单细胞分析中的非常常用的S4对象,里面包罗万象,那么它是如何组织的?存储了什么内容?以下这张图片中就已经整体进行了展示说明。
图中最核心的部分,是蓝色的data部分;另外还有绿色的基因注释信息feature metadata、橙色的细胞注释信息cell metadata。除了这三大件,还会包含一些下游分析结果,比如PCA、tSNE降维结果就会保存在紫色的Dimension Reductions,现在Bioconductor上的70多个单细胞相关的R包都使用了这个对象,是单细胞分析中非常常用的一种数据结构。
SingleCellExperment对象又简称sce,就好比是一辆装了各种集装箱的大货车,每一个集装箱里装着不同的物资,每一个集装箱都有不同的数据接口(有的接口必须是数值型矩阵结构,有的就需要数据框结构),又都铆合在一起共同在货车上前进。也有人把这些对象结构比作是一个流水线,经过不同的步骤,传送带上的对象盒子里就装上了经过不同函数处理的独立又相互关联的数据内容,中间每一步的处理有画图函数和指标来进行质控。
创建一个sce对象只需要一个assays(试验),这个assay里包含一个元素,这个元素的内容是表达量的数据,行代表的是基因,列代表的是细胞或者样本。首先我们来创建一个矩阵,包含10个基因,3个细胞。
counts_matrix <- data.frame(cell_1 = rpois(10, 10),
cell_2 = rpois(10, 10),
cell_3 = rpois(10, 30))
rownames(counts_matrix) <- paste0("gene_", 1:10)
counts_matrix <- as.matrix(counts_matrix)
有了这个矩阵,就可以用一个list构建SingleCellExperiment对象了。
#BiocManager::install('SingleCellExperiment')
sce <- SingleCellExperiment(assays = list(counts = counts_matrix))
>sce
## class: SingleCellExperiment
## dim: 10 3
## metadata(0):
## assays(1): counts
## rownames(10): gene_1 gene_2 ... gene_9 gene_10
## rowData names(0):
## colnames(3): cell_1 cell_2 cell_3
## colData names(0):
## reducedDimNames(0):
## spikeNames(0):
## altExpNames(0):
要获取这个对象中的矩阵,可以使用assay(sce,"count")也可以使用counts(sce),其中第一种方式也可以是其他名称的矩阵,而第二种方式只能获得为counts名称的矩阵。
构建好assays的核心后,可继续进行拓展,例如使用标准函数进行扩展,扩展到归一化的矩阵,例如:
sce <- scran::computeSumFactors(sce)
sce <- scater::normalize(sce)
> sce
## class: SingleCellExperiment
## dim: 10 3
## metadata(1): log.exprs.offset
## assays(2): counts logcounts
## rownames(10): gene_1 gene_2 ... gene_9 gene_10
## rowData names(0):
## colnames(3): cell_1 cell_2 cell_3
## colData names(0):
## reducedDimNames(0):
## spikeNames(0):
## altExpNames(0):
这个assays就从原来存储原始矩阵的counts,增加了一个归一化矩阵logcounts。这里对两个矩阵进行比较发现normalization这一步主要是去除细胞间或者样本文库间的差异,是所有的细胞或者样本具有了可比性。目前我们的sce对象中就有了2个元素。如果构建了新的矩阵也可以增加到sce对象中去。
assays(sce)
## List of length 2
## names(2): counts logcounts
除了有assays外,还有列的注释信息colData,列的注释信息通常就是细胞的注释信息,例如细胞名称或者样本名称、批次、作者等等,对应的上图中的橙色部分。首先我们来设置一个细胞批次的注释信息:
cell_metadata <- data.frame(batch = c(1, 1, 2))
rownames(cell_metadata) <- paste0("cell_", 1:3)
接着添加到sce对象中,通过直接构建的方式添加:
sce <- SingleCellExperiment(assays = list(counts = counts_matrix),
colData = cell_metadata)
也可以后续添加:
colData(sce) <- DataFrame(cell_metadata)
加入了sce对象后,可以通过colData(sce)来进行获取,或者sce$batch查看。
细胞注释的信息除了手动添加外,还可以通过scater包的calculateQCMetrics()进行计算,得到几十项细胞的质量信息,并添加进去。
sce <- scater::addPerCellQC(sce)
colData(sce)[, 1:5]
## DataFrame with 3 rows and 5 columns
## batch sum detected percent_top_50 percent_top_100
## <numeric> <integer> <integer> <numeric> <numeric>
## cell_1 1 80 10 100 100
## cell_2 1 88 10 100 100
## cell_3 2 309 10 100 100
rowData是行的注释信息,同细胞或者样本一样,基因也有自己的注释信息,它是一个数据框的结构。
# 一开始rowData(sce)是空的,可以添加
sce <- scater::addPerFeatureQC(sce)
rowData(sce)
## DataFrame with 10 rows and 2 columns
## mean detected
## <numeric> <numeric>
## gene_1 16.0000 100
## gene_2 14.3333 100
## gene_3 16.0000 100
## gene_4 18.6667 100
## gene_5 15.3333 100
## gene_6 16.6667 100
## gene_7 17.6667 100
## gene_8 13.0000 100
## gene_9 16.6667 100
## gene_10 14.6667 100
除了以上这些基本的,由于基因的注释信息是数据框的结构,因此可以按照位置或者名字来取子集,sce[c("gene_1","gene_2")]。另外还有reduceDims,用来存储原始矩阵的降维结构,可以通过PCA,tSNE和Umap获得。
SingleCellExperiment对象的兼容性强,可以用在多种单细胞分析的R包中作为输入或者中间文件,方便了对数据的传输和协作。
参考资料:
1、https://osca.bioconductor.org/data-infrastructure.html
2、https://bioc.ism.ac.jp/packages/3.6/bioc/vignettes/SingleCellExperiment/inst/doc/intro.html
3、https://satijalab.org/seurat/articles/essential_commands.html
4、http://linnarssonlab.org/loompy/format/index.html
5、https://satijalab.org/seurat/mca_loom.html
6、https://satijalab.org/seurat/articles/conversion_vignette.html
7、https://github.com/cellgeni/sceasy
8、https://www.bilibili.com/read/cv8675277
9 、https://www.jianshu.com/p/1f9fcb244d8e 作者:生信阿拉丁
10、https://www.jianshu.com/p/1422461cb84c 作者:麒麟991
11、https://www.jianshu.com/p/0c4bc6a932b2 作者:森尼啊
网友评论