SingleCellExperiment

作者: 麒麟991 | 来源:发表于2019-11-06 22:51 被阅读0次

    Bioconductor软件包SingleCellExperiment提供了SingleCellExperiment类以供使用。当使用依赖于SingleCellExperiment类的任何程序包和加载程序包时,可以按以下方式显式安装(并加载)程序包:

    BiocManager::install('SingleCellExperiment')
    BiocManager::install(c('scater', 'scran', 'uwot'))
    library(SingleCellExperiment)
    

    所述SingleCellExperimentsce)对象是基于在Bioconductor的单细胞分析应用的基础。该sce对象是一个S4对象,与R中其他可用的方法相比,它本质上为数据的构造和访问提供了一种更为形式化的方法。

    如果我们想象sce对象是一艘船,slots可被认为是个别货箱——为sce对象内单独的实体。此外,每个slot都包含自己的格式数据。打个比喻,我们可以想象水果和砖头需要不同的货箱变化形式。在某些情况下sce,一些slot包含矩阵,而其他slot则是数据框。

    image
    要构建基本sce对象,我们只需要一个slot:
    assays slot:包含基本数据的一个列表,列表中的每个条目均采用矩阵格式,其中行对应于特征(基因),列对应于样本(单元格)(图1A,蓝色框)

    让我们从生成10个基因的3个细胞计数数据开始

    counts_matrix <- data.frame(cell_1 = rpois(10, 10), 
                        cell_2 = rpois(10, 10), 
                        cell_3 = rpois(10, 30))
    rownames(counts_matrix) <- paste0("gene_", 1:10)
    counts_matrix <- as.matrix(counts_matrix) # must be a matrix object!
    

    由此看来,我们现在可以构建我们的第一个SingleCellExperiment对象,使用已定义的构造函数,SingleCellExperiment()。请注意,我们以命名列表的形式提供数据,并且列表的每个条目都是一个矩阵。在这里,我们counts_matrix仅counts在列表中将条目命名。

    sce <- SingleCellExperiment(assays = list(counts = counts_matrix))
    

    要检查对象,我们可以简单地sce在控制台中键入以查看一些相关信息,这些信息将显示可供我们使用的各种slot的概述(可能有或没有任何数据)。

    sce
    

    要访问我们刚刚提供的计数数据,我们可以执行以下任一操作:

    assay(sce, "counts") ——这是最通用的方法,我们可以在其中提供测定的名称作为第二个参数。
    counts(sce)——与上述相同,但仅适用于具有特殊名称的测定"counts"。

    counts(sce)
    

    扩展assays slot

    使assay slot特别强大的原因是它可以容纳多种数据。这对于存储数据的原始版本和normalized版本特别有用。我们可以如下所示,使用scranscater包来计算初始主数据的对数转换形式。

    请注意,这里,sce在将结果重新分配给我们之前,我们将覆盖之前的内容sce——这是因为这些函数返回了SingleCellExperiment对象。某些功能(尤其是那些面向单细胞的Bioconductor封装之外的功能)没有,在这种情况下,您需要将结果附加到sce对象上。

    sce <- scran::computeSumFactors(sce)
    sce <- scater::normalize(sce)
    

    再次查看该对象,我们看到这些函数添加了一些新条目:

    sce
    
    ## class: SingleCellExperiment 
    ## dim: 10 3 
    ## metadata(1): log.exprs.offset
    ## assays(2): counts logcounts
    ## rownames(10): gene_1 gene_2 ... gene_9 gene_10
    ## rowData names(0):
    ## colnames(3): cell_1 cell_2 cell_3
    ## colData names(0):
    ## reducedDimNames(0):
    ## spikeNames(0):
    ## altExpNames(0):
    

    具体来说,我们看到该assays slot已由两个条目组成:(counts我们的初始数据)和logcounts(转化数据)。与counts类似,该logcounts名称是一个特殊名称logcounts(sce),尽管普通版本也可以使用,但使我们只需键入即可访问它。

    logcounts(sce)
    
    ##         cell_1 cell_2 cell_3
    ## gene_1    4.43   4.56   4.14
    ## gene_2    4.83   4.10   4.54
    ## gene_3    4.04   4.23   4.19
    ## gene_4    4.31   3.62   4.43
    ## gene_5    3.70   3.62   4.23
    ## gene_6    4.43   4.35   3.53
    ## gene_7    3.26   3.96   3.90
    ## gene_8    4.54   4.46   4.31
    ## gene_9    3.70   4.56   4.00
    ## gene_10   3.50   3.62   4.05
    
    ## assay(sce, "logcounts") ## same as above
    

    请注意,之前的数据在细胞1、2与3之间的计数存在严重差异,并且通过归一化可以缓解这种差异。

    要查看sce中所有可用的assay,我们可以输入:

    assays(sce)
    
    ## List of length 2
    ## names(2): counts logcounts
    

    虽然上面的功能演示了向我们的sce对象自动添加,但是在某些情况下,我们可能希望执行自己的计算并将结果保存到assays中。特别对于使用不返回SingleCellExperiment对象的函数很重要。

    让我们附加一个修改后的数据新版本+100

    counts_100 <- assay(sce, "counts") + 100
    assay(sce, "counts_100") <- counts_100 # assign a new entry to assays slot
    

    然后,我们可以使用访问器assays()(请注意,这是复数!)来查看assay到目前为止的所有条目。请注意,要查看所有条目,我们使用复数assays()访问,并使用单数访问来检索单个条目(作为矩阵)assay(),并提供我们希望如上所述检索的化验名称。

    assays(sce)
    
    ## List of length 3
    ## names(3): counts logcounts counts_100
    

    这些条目也可以在默认视图中看到sce

    sce
    
    ## class: SingleCellExperiment 
    ## dim: 10 3 
    ## metadata(1): log.exprs.offset
    ## assays(3): counts logcounts counts_100
    ## rownames(10): gene_1 gene_2 ... gene_9 gene_10
    ## rowData names(0):
    ## colnames(3): cell_1 cell_2 cell_3
    ## colData names(0):
    ## reducedDimNames(0):
    ## spikeNames(0):
    ## altExpNames(0):
    

    图1B(深蓝色框)assays以图形方式表示了slots的这种扩展,显示了将矩阵添加到slot中。

    以类似的方式,sce如上所述,许多slot可通过分配而扩展,从而允许与面向单细胞的封装功能包之外的功能互相操作。

    列数据:colData

    为了进一步注释我们的sce对象,第一个也是最有用的信息之一是添加描述我们原始数据的列,例如实验的样本或细胞名。此数据输入到colData

    • colDataslot:描述data.frame提供的样本(或细胞)的注释,其中行对应于样本(细胞),列对应于样本(细胞)的数据功能(例如id,批处理,作者等)(图1A ,橙色框)。

    因此,让我们为细胞提供一些注释数据,从批次变量开始,其中细胞1和2在批次1中,而细胞3在批次2中。

    cell_metadata <- data.frame(batch = c(1, 1, 2))
    rownames(cell_metadata) <- paste0("cell_", 1:3)
    

    现在,我们可以采用两种方法追加cell_metadata到我们现有的sce,或者通过SingleCellExperiment()构造函数从一开始就构造。现在,我们将从头开始,但仍会展示如何添加数据:

    ## From scratch:
    sce <- SingleCellExperiment(assays = list(counts = counts_matrix),
                               colData = cell_metadata)
    
    ## Appending to existing object (requires DataFrame() coercion)
    ## colData(sce) <- DataFrame(cell_metadata)
    

    assays类似,我们可以看到colData现在从默认视图中填充sce

    sce
    
    ## class: SingleCellExperiment 
    ## dim: 10 3 
    ## metadata(0):
    ## assays(1): counts
    ## rownames(10): gene_1 gene_2 ... gene_9 gene_10
    ## rowData names(0):
    ## colnames(3): cell_1 cell_2 cell_3
    ## colData names(1): batch
    ## reducedDimNames(0):
    ## spikeNames(0):
    ## altExpNames(0):
    

    使用colData()访问我们的列(注释)数据:

    colData(sce)
    
    ## DataFrame with 3 rows and 1 column
    ##            batch
    ##        <numeric>
    ## cell_1         1
    ## cell_2         1
    ## cell_3         2
    

    最后,一些软件包会自动添加到colData目录中,例如,scater软件包具有一个功能calculateQCMetrics(),该功能会附加许多质量控制数据。在这里,我们显示colData(sce)前五列,并附加了质量控制指标。

    sce <- scater::calculateQCMetrics(sce)
    colData(sce)[, 1:5]
    
    ## DataFrame with 3 rows and 5 columns
    ##            batch is_cell_control total_features_by_counts
    ##        <numeric>       <logical>                <integer>
    ## cell_1         1           FALSE                       10
    ## cell_2         1           FALSE                       10
    ## cell_3         2           FALSE                       10
    ##        log10_total_features_by_counts total_counts
    ##                             <numeric>    <integer>
    ## cell_1               1.04139268515822           98
    ## cell_2               1.04139268515822          104
    ## cell_3               1.04139268515822          303
    

    使用colData的子集

    colData的一个常见的操作是它在子集选取中的使用。一种简单的访问方式是通过使用$运算符,这是访问colData内变量的捷径:

    sce$batch
    
    ## [1] 1 1 2
    
    ## colData(sce)$batch # same as above
    

    如果只需要批次1中的单元格,则可以按如下方式对sce对象进行子集化(请记住,在这种情况下,我们在上具有子集,因为这里是按细胞/样本进行过滤)。

    sce[, sce$batch == 1]
    
    ## class: SingleCellExperiment 
    ## dim: 10 2 
    ## metadata(0):
    ## assays(1): counts
    ## rownames(10): gene_1 gene_2 ... gene_9 gene_10
    ## rowData names(7): is_feature_control mean_counts ... total_counts
    ##   log10_total_counts
    ## colnames(2): cell_1 cell_2
    ## colData names(10): batch is_cell_control ...
    ##   pct_counts_in_top_200_features pct_counts_in_top_500_features
    ## reducedDimNames(0):
    ## spikeNames(0):
    ## altExpNames(0):
    

    行数据:rowData/rowRanges

    最后,这些行还具有自己的注释信息单元,用于存储与sce对象功能有关的信息:

    • rowDataslot:包含data.frameDataFrame)格式的数据,该数据描述与基本数据行相对应的方面(图1A,绿色框)。

    此外,还有一个特殊的slot,储存基因组坐标特征:

    • rowRangesslot:以GRangesList(其中每个条目均为GenomicRanges格式)的数据形式描述基因,基因组区域的染色体,开始和结束坐标。

    这两种方法都能通过各自的存取访问,rowRanges()rowData()。在我们的例子中,rowRanges(sce)产生一个空列表:

    rowRanges(sce) # empty
    
    ## GRangesList object of length 10:
    ## $gene_1
    ## GRanges object with 0 ranges and 0 metadata columns:
    ##    seqnames    ranges strand
    ##       <Rle> <IRanges>  <Rle>
    ##   -------
    ##   seqinfo: no sequences
    ## 
    ## $gene_2
    ## GRanges object with 0 ranges and 0 metadata columns:
    ##    seqnames    ranges strand
    ##       <Rle> <IRanges>  <Rle>
    ##   -------
    ##   seqinfo: no sequences
    ## 
    ## $gene_3
    ## GRanges object with 0 ranges and 0 metadata columns:
    ##    seqnames    ranges strand
    ##       <Rle> <IRanges>  <Rle>
    ##   -------
    ##   seqinfo: no sequences
    ## 
    ## ...
    ## <7 more elements>
    

    但是,上一节中对的调用calculateQCMetrics(sce)填充在对象的rowData中,如下所示(为简便起见,仅显示了前三列):

    rowData(sce)[, 1:3]
    
    ## DataFrame with 10 rows and 3 columns
    ##         is_feature_control      mean_counts log10_mean_counts
    ##                  <logical>        <numeric>         <numeric>
    ## gene_1               FALSE 18.6666666666667  1.29373075692248
    ## gene_2               FALSE               22  1.36172783601759
    ## gene_3               FALSE               17  1.25527250510331
    ## gene_4               FALSE 18.3333333333333  1.28630673884327
    ## gene_5               FALSE 15.3333333333333  1.21307482530885
    ## gene_6               FALSE 14.3333333333333  1.18563657696191
    ## gene_7               FALSE               13  1.14612803567824
    ## gene_8               FALSE               20  1.32221929473392
    ## gene_9               FALSE               16  1.23044892137827
    ## gene_10              FALSE 13.6666666666667  1.16633142176653
    

    以类似于colData的方式,可以在创建SingleCellExperiment对象时在开始时就提供此类功能数据,我们将其留给读者作为练习。

    按行取子集

    sce在特征/基因级别上将对象子集细分,我们可以通过提供数字索引或名称向量来进行类似于其他R对象的行操作:

    sce[c("gene_1", "gene_4"), ]
    
    ## class: SingleCellExperiment 
    ## dim: 2 3 
    ## metadata(0):
    ## assays(1): counts
    ## rownames(2): gene_1 gene_4
    ## rowData names(7): is_feature_control mean_counts ... total_counts
    ##   log10_total_counts
    ## colnames(3): cell_1 cell_2 cell_3
    ## colData names(10): batch is_cell_control ...
    ##   pct_counts_in_top_200_features pct_counts_in_top_500_features
    ## reducedDimNames(0):
    ## spikeNames(0):
    ## altExpNames(0):
    
    ## sce[c(1, 4), ] # same as above in this case
    

    sizeFactors

    我们已经通过scran::computeSumFactors(sce)调用添加了一个sizeFactorsslot:

    • sizeFactors插槽:在数字向量中包含有关样本/细胞归一化因子的信息,该因子用于产生归一化的数据表示形式(图1B,棕色框
    sce <- scran::computeSumFactors(sce)
    sce <- scater::normalize(sce)
    sizeFactors(sce)
    
    ## [1] 0.582 0.618 1.800
    

    简要回顾:从sesce

    到目前为止,我们已经涵盖了assays(原始数据),colData(样本注释数据),rowData/ rowRanges(特征注释数据)和SingleCellExperimentsizeFactors

    需要注意的是,SingleCellExperiment是从它的前身SummarizedExperimentse)导出的,特别是继承了assayscolDatarowData/ rowRanges。这样,大多数SummarizedExperiment功能保留在SingleCellExperiment中。这使与之配合使用的现有方法可以`在SingleCellExperiment对象上类似地工作。

    那么SingleCellExperiment又有什么创新呢?对于我们的讨论,最重要的更改是添加了一个reducedDims

    reducedDims slot

    reducedDims是一个新增功能,专门用于存储通过PCA,tSNE,UMAP等方法获得的原始数据的降维信息。

    • reducedDimsslot:包含一个数字matrix条目的列表,这些条目描述了降维的原始数据表示,因此行代表原始数据的列(又名样本/细胞),而列则代表维度

    最重要的是,就像assays一样,该reducedDims是可以容纳许多条目的列表。因此,它可以在reducedDims插槽内保存给定数据集的PCA,TSNE和UMAP表示形式。

    在我们的示例中,我们可以使用scaterpackage函数如下计算数据的PCA表示形式runPCA()。我们看到,sce现在显示了一个新的reducedDim,并且reducedDim()对来自logcounts(sce)的规范化数据产生了运行PCA的结果。

    sce <- scater::runPCA(sce)
    reducedDim(sce, "PCA")
    
    ##           PC1    PC2
    ## cell_1  0.194  0.818
    ## cell_2 -0.887 -0.258
    ## cell_3  0.693 -0.560
    ## attr(,"percentVar")
    ## [1] 55.4 44.6
    

    由此,我们还可以使用scaterpackagerunTSNE()函数来计算tSNE表示形式,并且可以在默认视图中sce或通过access 看到它:

    sce <- scater::runTSNE(sce, perplexity = 0.1)
    
    ## Perplexity should be lower than K!
    
    reducedDim(sce, "TSNE")
    
    ##         [,1]  [,2]
    ## cell_1  1341  5533
    ## cell_2 -5458 -1597
    ## cell_3  4117 -3936
    

    我们可以通过访问器查看reducedDims中所有条目的名称reducedDims()(请注意,该名称是复数形式)

    reducedDims(sce)
    
    ## List of length 2
    ## names(2): PCA TSNE
    

    现在,假设我们要尝试使用一种不同的降维算法,该算法尚未实现与SingleCellExperiment的直接兼容。为了适应这种情况(或者,当我们想直接对数据本身而不是通过包运行降维方法时),我们可以直接添加到reducedDims中。这类似于我们之前assays使用自定义条目扩展counts_100的方式。

    下面,我们展示如何直接umap()uwot包中实现,而不是通过在scater中实现的关联包装函数runUMAP()来运行,保存中间结果,然后将它们添加到我们先前拥有的sce对象中。

    u <- uwot::umap(t(logcounts(sce)), n_neighbors = 2)
    reducedDim(sce, "UMAP_uwot") <- u
    
    reducedDim(sce, "UMAP_uwot")
    
    ##          [,1]    [,2]
    ## cell_1 -0.413  0.0368
    ## cell_2  0.243  0.5494
    ## cell_3  0.170 -0.5862
    ## attr(,"scaled:center")
    ## [1] -2.32 -1.64
    

    现在,当我们查看reducedDims()输出时,我们还可以看到其条目:

    reducedDims(sce)
    
    ## List of length 3
    ## names(3): PCA TSNE UMAP_uwot
    

    metadata

    一些分析产生的结果不适合上述slot。值得庆幸的是,有一个slot仅用于这种类型的混乱数据,并且实际上,可以容纳任何类型的数据,只要它在命名列表中即可:

    • metadata slot:一个命名的条目列表,列表中的每个条目都可以是您想要的任何内容

    例如,假设我们有一些喜欢的基因,例如高度可变的基因,我们希望将其保存在内部sce以便以后使用。我们可以简单地通过如下所示将其附加到metadata slot:

    my_genes <- c("gene_1", "gene_5")
    metadata(sce) <- list(favorite_genes = my_genes)
    metadata(sce)
    
    ## $favorite_genes
    ## [1] "gene_1" "gene_5"
    

    同样,我们可以通过$运算符附加更多信息:

    your_genes <- c("gene_4", "gene_8")
    metadata(sce)$your_genes <- your_genes
    metadata(sce)
    
    ## $favorite_genes
    ## [1] "gene_1" "gene_5"
    ## 
    ## $your_genes
    ## [1] "gene_4" "gene_8"
    

    SingleCellExperiment记录分析

    在随后的部分中,我们将显示一个示例工作流,该工作流使用SingleCellExperiment对象作为其基础,并且与上面的SingleCellExperiment类的演练类似,将连续追加新条目以保存分析结果。因此,SingleCellExperiment可以以此方式用作分析记录。这使得它对于合作特别有用,因为可以通过iSEE等图形用户界面来传输,分析甚至可视化对象。

    结论

    这种与SingleCellExperiment连接,使得许多这些程序包在scRNA-seq分析的整个过程中都易于互操作和模块化。此外,它允许任何人在SingleCellExperiment里面实施并建立自己的scRNA-SEQ分析工具。

    原始学习网站:https://osca.bioconductor.org/data-infrastructure.html

    相关文章

      网友评论

        本文标题:SingleCellExperiment

        本文链接:https://www.haomeiwen.com/subject/nibubctx.html