美文网首页单细胞流程
使用Garnett包进行单细胞类型分类注释分析(二):Class

使用Garnett包进行单细胞类型分类注释分析(二):Class

作者: Davey1220 | 来源:发表于2020-05-10 08:37 被阅读0次

    image.png

    Classifying your cells

    image.png

    Load your data

    library(monocle)
    library(garnett)
    # load in the data
    # NOTE: the 'system.file' file name is only necessary to read in
    # included package data
    #
    mat <- Matrix::readMM(system.file("extdata", "exprs_sparse.mtx", package = "garnett"))
    fdata <- read.table(system.file("extdata", "fdata.txt", package = "garnett"))
    pdata <- read.table(system.file("extdata", "pdata.txt", package = "garnett"), sep="\t")
    row.names(mat) <- row.names(fdata)
    colnames(mat) <- row.names(pdata)
    
    # create a new CDS object
    pd <- new("AnnotatedDataFrame", data = pdata)
    fd <- new("AnnotatedDataFrame", data = fdata)
    pbmc_cds <- newCellDataSet(as(mat, "dgCMatrix"),
                                 phenoData = pd,
                                 featureData = fd)
    
    # generate size factors for normalization later
    pbmc_cds <- estimateSizeFactors(pbmc_cds)
    

    构建好细胞分类器之后,我们就可以使用classify_cells函数对细胞进行分类了。该函数主要包含以下参数:

    • cds: 包含基因表达数据的CDS输入对象。
    • classifier: 使用Garnett训练获得的garnett_classifier分类器。
    • db: 是用于转换基因id的Bioconductor注释db类包的必要参数。例如,对于人类使用org.Hs.eg.db。
    • cluster_extend: 该参数告诉Garnett是否创建第二组分配,以将分类扩展到相同cluster群中的细胞。我们可以在“garnett_cluster”列的pData表中提供分群的id,也可以让Garnett计算分群并填充该列。
    • cds_gene_id_type:该参数告诉Garnett输入的CDS对象中基因id的格式。默认是“ENSEMBL”。

    注意: 如果不提供“garnett_cluster”列,并使用一个非常大的数据集将cluster_extend设置为TRUE,则此函数的运行速度将大大降低。为了方便起见,Garnett会将其计算出的cluster集群保存为“garnett_cluster”,因此如果再次运行该函数,其运算速度会更快。

    使用classify_cells函数对细胞进行分类后,在返回的CDS对象中会包含一个Garnett分类的新列(如果cluster_extend = TRUE,则返回两个),我们可以使用pData函数进行查看。

    library(org.Hs.eg.db)
    # 使用classify_cells函数基于训练好的分类器进行细胞分类
    pbmc_cds <- classify_cells(pbmc_cds, pbmc_classifier,
                               db = org.Hs.eg.db,
                               cluster_extend = TRUE,
                               cds_gene_id_type = "SYMBOL")
    
    # 查看分类的结果
    head(pData(pbmc_cds))
    #                  CellSample    tsne_1    tsne_2 Size_Factor garnett_cluster cell_type cluster_ext_type
    #AAGCACTGCACACA-1 CD19+BCells  3.840315 12.084191   0.5591814               1   B cells          B cells
    #GGCTCACTGGTCTA-1 CD19+BCells  9.970962  3.505393   0.5159340               1   Unknown          B cells
    #AGCACTGATATCTC-1 CD19+BCells  3.459529  4.935273   0.6980284               1   B cells          B cells
    #ACACGTGATATTCC-1 CD19+BCells  1.743949  7.782671   0.8156310               2   B cells          B cells
    #ATATGCCTCTGCAA-1 CD19+BCells  5.783448  8.558898   1.1153280               1   B cells          B cells
    #TGACGAACCTATTC-1 CD19+BCells 10.792853 10.585274   0.6494699               3   B cells          B cells
    
    table(pData(pbmc_cds)$cell_type)
    # B cells CD4 T cells CD8 T cells     T cells     Unknown
    #     207         129          61         164         239
    
    table(pData(pbmc_cds)$cluster_ext_type)
    # B cells CD4 T cells     T cells 
    #     403         190         207 
    
    library(ggplot2)
    # 对分类结果进行可视化
    qplot(tsne_1, tsne_2, color = cell_type, data = pData(pbmc_cds)) + theme_bw()
    
    qplot(tsne_1, tsne_2, color = cluster_ext_type, data = pData(pbmc_cds)) + theme_bw()
    
    image.png image.png

    上图中第一个图显示了Garnett的细胞类型分配,第二张图显示了Garnett的cluster群扩展类型分配。我们可以看到,在这些cluster集群中T细胞子集(CD4和CD8)并没有很好地分离开。因此,在计算cluster集群扩展类型时,Garnett将层次结构备份到更可靠的“T细胞”分配中。

    因为此示例数据来自FACS排序的细胞样本,所以我们可以将Garnett的分类结果与“真实的”细胞类型进行比较。

    # 查看FACS排序的细胞分类结果
    qplot(tsne_1, tsne_2, color = FACS_type, data = pData(pbmc_cds)) + theme_bw()
    
    image.png

    Troubleshooting

    Common marker file errors
    image.png

    这里,我们提供了一些常见的标记文件错误和Garnett分类的潜在结果的示例。在上图中,我们使用10x PBMC version 2 (V2)的数据进行分类器的训练,然后使用该分类器对上述的10x PBMC version 1 (V1)数据进行细胞分类。第一个面板由基于FACS排序的细胞类型进行分配着色,其余的面板由Garnett集群无关的细胞类型分配着色。

    • A cell type is missing from the marker file. 例如,在PBMC标记文件中,不包括T细胞定义(面板2)。我们发现,通常Garnett会将缺失的细胞类型标记为“Unknown”。

    • A cell type is defined but includes no good specific markers. 例如,在PBMC标记文件中,仅使用CD4而不用CD3来定义T细胞(面板3)。在这种情况下,我们发现Garnett只标记了一部分T细胞,而没有标记其余细胞。

    • A gene that is not specific and widely expressed is used to define a cell type. 例如,如果我们将MALAT1 (PBMC数据集中表达最多的转录本)添加到T细胞定义(面板4)中,在这种情况下,我们会发现每种细胞类型最终都在真实细胞类型和T细胞之间混合分配。在另一种情况下,包含一个广泛表达的非特异性基因可能会导致Garnett根本找不到足够的训练样本,因为它会认为所有细胞都是模棱两可的(因为它们会表达其他marker基因和非特异性的基因)。

    • A cell type definition includes genes that are specific to another cell type. 例如,如果我们将B细胞的最佳标记(CD79A)添加到T细胞的定义中(面板5)。我们会发现B细胞簇中包含了B细胞和T细胞和混合细胞类型分配,但是其余的细胞类型的标签大多没有变化。

    My species doesn't have an AnnotationDbi-class database

    如果我们使用的物种没有可用的AnnotationDbi类数据库,则Garnett将无法在基因ID类型之间进行转换。但是,我们仍然可以使用Garnett进行细胞分类。我们可以设置db ='none',然后确保在标记文件中使用与CDS对象相同的基因ID类型。当设置db ='none'时,Garnett将忽略基因ID类型的参数。

    More troubleshooting to come...

    Citation

    If you use Garnett to analyze your experiments, please cite:

    citation("garnett")
    
    # Hannah A. Pliner, Jay Shendure & Cole Trapnell (2019). Supervised classification enables rapid annotation of cell atlases. Nature Methods
    #
    # A BibTeX entry for LaTeX users is
    #
    #   @Article{,
    #     title = {Supervised classification enables rapid annotation of cell atlases},
    #     journal = {Nature Methods},
    #     year = {2019},
    #     author = {Hannah A. Pliner and Jay Shendure and Cole Trapnell},
    #   }
    #
    

    参考来源:https://cole-trapnell-lab.github.io/garnett/docs/#2-classifying-your-cells

    相关文章

      网友评论

        本文标题:使用Garnett包进行单细胞类型分类注释分析(二):Class

        本文链接:https://www.haomeiwen.com/subject/hsvhnhtx.html