SeuratData

SeuratData是一种使用R的内部软件包和数据管理系统以Seurat对象形式分发数据集的机制。它为用户提供了一种访问Seurat小插曲中使用的数据集的简便方法。

安装

SeuratData的安装可以通过devtools完成

devtools::install_github('satijalab/seurat-data')

Getting Started

加载SeuratData时，将显示所有可用数据集的列表（这与其他元数据包（如tidyverse）以及用于创建每个数据集的Seurat版本相似。suppressPackageStartupMessages

> library(SeuratData)
── Installed datasets ───────────────────────────────────────────────────────────── SeuratData v0.1.0 ──
✔ cbmc   3.0.0                                           ✔ panc8  3.0.0
✔ ifnb   3.0.0                                           ✔ pbmc3k 3.0.0

───────────────────────────────────────────────── Key ──────────────────────────────────────────────────
✔ Dataset loaded successfully

要查看所有可用数据集的清单，请使用AvailableData；该清单将随着新数据集上载到我们的数据存储库而更新。

> AvailableData()
                     Dataset Version                                                        Summary species            system ncells                                                            tech         notes Installed InstalledVersion
cbmc.SeuratData         cbmc   3.0.0                   scRNAseq and 13-antibody sequencing of CBMCs   human CBMC (cord blood)   8617                                                        CITE-seq          <NA>      TRUE            3.0.0
hcabm40k.SeuratData hcabm40k   3.0.0 40,000 Cells From the Human Cell Atlas ICA Bone Marrow Dataset   human       bone marrow  40000                                                          10x v2          <NA>     FALSE            3.0.0
ifnb.SeuratData         ifnb   3.0.0                              IFNB-Stimulated and Control PBMCs   human              PBMC  13999                                                          10x v1          <NA>      TRUE            3.0.0
panc8.SeuratData       panc8   3.0.0               Eight Pancreas Datasets Across Five Technologies   human Pancreatic Islets  14892                SMARTSeq2, Fluidigm C1, CelSeq, CelSeq2, inDrops          <NA>      TRUE            3.0.0
pbmc3k.SeuratData     pbmc3k   3.0.0                                     3k PBMCs from 10X Genomics   human              PBMC   2700                                                          10x v1          <NA>      TRUE            3.0.0
pbmcsca.SeuratData   pbmcsca   3.0.0           Broad Institute PBMC Systematic Comparative Analysis   human              PBMC  31021 10x v2, 10x v3, SMARTSeq2, Seq-Well, inDrops, Drop-seq, CelSeq2 HCA benchmark     FALSE            3.0.0

数据集的安装可以使用InstallData; 此函数将接受数据集名称（例如pbmc3k）或相应的包名称（例如pbmc3k.SeuratData）。InstallData会自动附加已安装的数据集软件包，因此可以立即加载和使用数据集。

> InstallData("pbmc3k")

使用data功能完成数据集的加载

> data("pbmc3k")
> pbmc3k
An object of class Seurat
13714 features across 2700 samples within 1 assay
Active assay: RNA (13714 features)

Dataset documentation and information

数据集文档和信息

所提供的所有数据集均具有为其构建的帮助页面。使用标准help功能访问这些页面

> ?pbmc3k
> ?ifnb

这些帮助页面的示例部分提供了用于生成每个数据集的步骤的完整命令列表。

程序包通常还会将引用信息与程序包捆绑在一起。可以通过将包名称而不是数据集名称传递给citation函数来访问引用信息

> citation('cbmc.SeuratData')

To cite the CBMC dataset, please use:

  Stoeckius et al. Simultaneous epitope and transcriptome measurement in
  single cells. Nature Methods (2017)

A BibTeX entry for LaTeX users is

  @Article{,
    author = {Marlon Stoeckius and Christoph Hafemeister and William Stephenson and Brian Houck-Loomis and Pratip K Chattopadhyay and Harold Swerdlow and Rahul Satija and Peter Smibert},
    title = {Simultaneous epitope and transcriptome measurement in single cells},
    journal = {Nature Methods},
    year = {2017},
    doi = {10.1038/nmeth.4380},
    url = {https://www.nature.com/articles/nmeth.4380},
  }

基本原理和实施

我们创建SeuratData的目的是尽可能以无痛且可复制的方式分发Seurat 小插曲的数据集。我们还希望为用户提供选择性地安装和加载感兴趣的数据集的灵活性，以最大程度地减少磁盘存储和内存使用。

为此，我们选择通过单个R包分发数据集。在后台，SeuratData使用并扩展了标准R函数，例如install.packages用于数据集安装，available.packages数据集列表和data数据集加载。

因此，SeuratData充当R的更特定的包管理器（类似于元包）。我们为R的包管理功能提供包装器，对其进行扩展以提供有关每个数据集的相关元数据，并设置默认设置（例如，存储数据的存储库）。存储）以方便安装。
https://github.com/satijalab/seurat-data#dataset-documentation-and-information