为什么要以数据库的思维来理解单细胞数据

作者: 周运来就是我 | 来源:发表于2020-04-03 00:02 被阅读0次

    在我们涉足单细胞数据分析不久之后就会发现,我们在和一套新的理念打交道。在这套理念中,对象是常见的,数据是多维的,往往是一张核心表及其附属。我们对一张表是熟悉的,Excel极大地普及了这种熟悉,但是如何管理表的附属?在这套理念中,每个cell都是不同的。

    注:这里的cell是一语双关,既指表中的单元格,又指细胞。细胞就是单元格。

    单细胞数据格式

    为了记录每个细胞的信息,人们发展了相应的数据结构如seurat的S4类,monocle的CDS,SingleCellExperiment的sce,scanpy的anndata等,可见单细胞的故事远大于一张二维的表达谱。

    seurat的S4类

    Seurat 是我们熟悉的单细胞数据分析工具了,也许已经用seurat分析数据了,或者已经发表了文章,你确你已经了解seurat的逻辑了吗:以存储记录过程。


    我就是这么大

    如Seurat会记录所执行的计算及其信息,有了seurat对象其实就知道人们在什么时候对数据做了哪些操作以及参数是什么。

    pbmc_small@commands
    $NormalizeData.RNA
    Command: NormalizeData(object = pbmc_small)
    Time: 2018-08-28 04:32:17
    assay : RNA 
    normalization.method : LogNormalize 
    scale.factor : 10000 
    verbose : TRUE 
    
    $RunPCA.RNA
    Command: RunPCA(object = pbmc_small, features = VariableFeatures(object = pbmc_small),     verbose = FALSE)
    Time: 2018-08-28 04:34:56
    assay : RNA 
    features : PPBP IGLL5 VDAC3 CD1C AKR1C3 PF4 MYL9 GNLY TREML1 CA2 SDPR PGRMC1 S100A8 TUBB1 HLA-DQA1 PARVB RUFY1 HLA-DPB1 RP11-290F20.3 S100A9 
    compute.dims : 20 
    rev.pca : FALSE 
    weight.by.var : TRUE 
    verbose : FALSE 
    print.dims : 1 2 3 4 5 
    features.print : 30 
    reduction.name : pca 
    reduction.key : PC 
    seed.use : 42 
    
    $BuildSNN.RNA.pca
    Command: BuildSNN(pbmc_small, features = VariableFeatures(object = pbmc_small))
    Time: 2018-08-28 04:43:31
    assay : RNA 
    features : PPBP IGLL5 VDAC3 CD1C AKR1C3 PF4 MYL9 GNLY TREML1 CA2 SDPR PGRMC1 S100A8 TUBB1 HLA-DQA1 PARVB RUFY1 HLA-DPB1 RP11-290F20.3 S100A9 
    reduction : pca 
    dims : 1 2 3 4 5 6 7 8 9 10 
    k.param : 30 
    prune.SNN : 0.06666667 
    nn.eps : 0 
    verbose : TRUE 
    force.recalc : FALSE 
    do.plot : FALSE 
    graph.name : RNA_snn 
    
    ......
    

    SingleCellExperiment

    SingleCellExperiment 对象是较老的SummarizedExperiment对象的扩展。这是一个S4类开发用于Bioconductor 包,其主要部分是一组中央矩阵“assays”,以及提供关于行和列的额外信息的表。还有一个元数据槽,它是一个包含与实验相关的任何其他信息的列表。

    • A : 最小的sce对象是通过提供数据来构建的,比如每个细胞的计数矩阵(蓝色方框),由特征组成,比如基因(行)和细胞(列)。还可以提供描述单元格的元数据,其中单元格表示为行,单元格的已知特征为列(橙色框)。类似地,也可以添加描述特性的元数据(绿色框)。这些不同类型的数据都存储在sce对象的不同部分中,这些部分称为槽(slots)。每个槽中的数据可以通过以各自的槽(箭头)命名的访问器以编程方式访问,比如rowRanges指的是特征元数据,colData指的是样本元数据,assay指的是数据。

    • B : 使用sce (singlecellexper, sce)兼容的工作流进行分析,将数据附加到初始sce对象。例如,计算每个单元格的库规范化因子将创建一个新槽(粉色框)。这些可以用来推导一个归一化计数矩阵,它与初始计数数据(深蓝色方框)一起存储在同一个检测槽中。因此,分析槽能够存储任意数量的数据转换。单元质量度量(描述单元特征)被附加到样例元数据槽colData中。最后,以与分析槽类似的方式,可以存储任意数量的维数缩减的数据表示形式,驻留在它们自己的槽中,reducedDim。

    • C : sce对象在典型分析的整个过程中不断发展,存储来自初始数据的各种度量和表示。有关singlecellexper类的更多信息,请参见singlecellexper(https://bioconductor.org/packages/singlecellexper)。

    anndata

    单细胞转录组的核心就是一个cell X gene的二维表,但是分群后要存储cell的分群结果,特征选择是要记录gene的信息,降维后要存储降维后的结果。所以,这张表.X的对象cell相关的信息记录在.obs中,属性gene的信息记录在.var中,其他的信息在.uns中。

    记得初中时学习立体几何老师要求我们要有空间想象力,把思维提高到一个新的维度。在单细胞数据分析的过中,我们也要挑起我们的想象力,比如在RNA速率的分析中,anndata存储的内容是这样的:

    adata
    
    AnnData object with n_obs × n_vars = 7292 × 1999 
        obs: 'initial_size_unspliced', 'initial_size_spliced', 'initial_size', 'n_counts', 'velocity_self_transition', 'leiden', 'velocity_clusters'
        var: 'Accession', 'Chromosome', 'End', 'Start', 'Strand', 'means', 'dispersions', 'dispersions_norm', 'velocity_gamma', 'velocity_r2', 'velocity_genes', 'velocity_score', 'fit_alpha', 'fit_beta', 'fit_gamma', 'fit_t_', 'fit_scaling', 'fit_std_u', 'fit_std_s', 'fit_likelihood', 'fit_u0', 'fit_s0', 'fit_pval_steady', 'fit_steady_u', 'fit_steady_s', 'fit_alignment_scaling', 'fit_r2'
        uns: 'pca', 'neighbors', 'connectivities_key', 'distances_key', 'velocity_settings', 'velocity_graph', 'velocity_graph_neg', 'leiden', 'umap', 'leiden_colors', 'rank_velocity_genes', 'recover_dynamics'
        obsm: 'X_pca', 'X_umap', 'velocity_umap'
        varm: 'PCs', 'loss'
        layers: 'matrix', 'ambiguous', 'spliced', 'unspliced', 'Ms', 'Mu', 'velocity', 'variance_velocity', 'fit_t', 'fit_tau', 'fit_tau_', 'velocity_u'
        obsp: 'distances', 'connectivities'
    

    我们不仅要知道每一部分存储的内容,还要知道各部分之间的关系。

    为什么是数据库

    随着单细胞多模态数据的丰富,目前只是转录组的数据结构就这么丰富了,想想一下每个细胞还有表观信息,以后还有空间信息,多组学的发展一定会再次丰富数据结构的。

    另一个层面的是,数据结构是和算法结合在一起的。算法就是处理某一问题的解法,过程和步骤,不同的数据结构会简化算法复杂度。数据结构是描述问题,算法是解决问题,二者是紧密联系在一起的。

    而数据库的概念把我们从数据表的狭小空间中解放出来:数据库系统是为适应数据处理的需要而发展起来的一种较为理想的数据处理系统,也是一个为实际可运行的存储、维护和应用系统提供数据的软件系统,是存储介质 、处理对象和管理系统的集合体。

    其实数据库在单细胞数据分析中已经很常见了,除了上面我们提到的常见的数据格式之外,有不少研究者会把数据放到公用数据库中。只是这类的大数据库,初学者会觉得离自己很遥远。

    数据库之外

    我们花大力气去存储数据,描述数据,是为了什么呢?或者回到问题的开始,就是一张二维表,我们能得到什么信息呢?所以很多时候热闹是他们的,我们的关注点还是应该放在生物学的问题上。以技术为舟帆去游弋生物学的海洋。

    相关文章

      网友评论

        本文标题:为什么要以数据库的思维来理解单细胞数据

        本文链接:https://www.haomeiwen.com/subject/qhjtphtx.html