美文网首页文章套路单细胞测序R生信相关
单细胞---HGSTOC卵巢癌的单细胞数据分析--subclus

单细胞---HGSTOC卵巢癌的单细胞数据分析--subclus

作者: 小贝学生信 | 来源:发表于2021-07-20 14:21 被阅读0次
    • 文献:High-grade serous tubo-ovarian cancer refined with single-cell RNA sequencing: specific cell subtypes influence survival and determine molecular subtype classification
    • PMID | Journal | Date | IF:34238352 | Genome Med 2021 Jul 9 | 11


    1、文章背景与实验设计

    • High-grade serous tubo-ovarian cancer(HGSTOC,高级别浆液性输卵管卵巢癌)全球每年有近24w女性患者,易复发、生存率低...
    • 根据Bulk RNA-seq的研究可将HGSTOC分为4种亚型:mesenchymal(间充质型), immunoreactive(免疫反应型),differentiated(分化型) and proliferative(增殖型)。但分类标准不一并且临床指导意义不大,究其原因可能是肿瘤微环境里的基质细胞类型种类混杂。
    • 因此弄清楚HGSTOC肿瘤微环境的细胞类型具有很大意义。

    2、实验设计

    2、数据分析主要思路

    2.1 Seurat 标准流程

    • 对来自cellranger的20483个细胞(12 samples)过滤得到18403个细胞的23152个基因的表达矩阵。(Cells: nGene < 200 & > 6000 & mito > 15%; Genes: nCell < 10)
    • 标准化、寻找高变基因(Variable genes)、归一化、降维

    注意:归一化的同时对三个可能影响基因表达的协变量因素进行回归校正,包括nUMI、mito-percentage、细胞周期评分。
    对细胞周期回归校正的原因: cell cycle genes was particularly important for the T cell/natural killer (NK) cell subcluster. 详见Fig S1B-F

    • 聚类分群(primary clusters):第一次聚类目的区分出主要的细胞类型,使用marker gene进行注释;marker gene文件详见附件Table S3
      resolution=0.38;21 clusters ; 8 main celltype,如下图包括:B细胞、T细胞、树突细胞、内皮细胞、纤维细胞、髓系细胞、卵巢基质细胞。
      其中用CNV score(inferCNV包)评价细胞的拷贝数变异情况,用于辅助确认肿瘤细胞、区别纤维细胞。


    • 再次聚类分群(subclusters) :确认了主要的细胞类型之后,作者对8种细胞类型分别再次聚类分群,以深入挖掘肿瘤微环境的异质性。recluster参数各有差异,以符合作者预期的分群效果。
      最终得到35个基质细胞类型亚群与11个肿瘤细胞亚群

    (1)为了验证分群结果的鲁棒性,作者用了NMI(Normalised Mutual Information);ARI(Adjusted Rand Index)两个参数评价不同参数(pc±5、resolution±5~10%)分群的稳定性;
    (2)为了验证分群结果在样本间的均匀分布,作者用了Shannon index;过低表明specific distribution,可能是潜在的是潜在的批次效应(CCA去除)
    (3)为了验证subcluster是否为doublet,作者采用了方法为:是否有subcluster同时表达两种细胞类型的marker gene,详见Fig S3

    2.2 slucluster的功能注释与特征分析

    (1)功能注释
    • 首先作者借用了Qian等人注释的49种基质细胞类型尝试对35种细胞类型注释,通过合并small subcluster、rare/tissue-specific subcluster最终注释到32种基质细胞亚群的功能分类,详见附件Table S5。


    例如recluster的5个内皮细胞亚群功能注释为:


    (2)特征基因表达分析
    • 这一步主要目的是找到每个subcluster的marker gene sets。
    • 作者采用了两种思路:(1)Transcriptomic marker(TM):采用Seurat 包的FindAllMarkers()[logfc>0.25 & p<0.01]函数先找到每个subcluster的差异基因,然后再设定一系列过滤手段,最后得到42个sucluster的809 TMs(per subcluster ranged from 1 to 86)

    具体思路,结合下图为:首先对8 main celltypes内部的subcluster做FindAllMarkers()。然后用得到的所有差异基因,在全部subcluster间做FindAllMarkers(),筛选;然后每个subcluster的TMs的表达百分比>40%,在第二大高表达的subcluster里表达百分比<50%;最后在所有subcluster的表达比中位数<10%

    (2) xCell主要采用gene signature-based deconvolution method,可分析出每个subcluster的 gene enrichment signatures。最终得到43个 subcluster的 648个signatures。(具体流程还没有看明白,但目的还是同上,方法不同。之后会去学习那片文章。)

    2.3 slucluster的临床诊断意义分析=

    • 首先作者收集到6个HGSTOC Bulk RNA-seq队列,然后计算每个上述subcluster的TMs/xCell signature在每个病人Bulk RNA-seq的表达程度评分;

    TMs score用Subcluster-Specific Z-score (SSZ score)表示,具体含义是 the average of all z-scores of the TMs of one particular subcluster.

    • 然后分别使用每个subcluster的两个评分,结合病人的生存数据 overall survival (OS) 进行COX比例风险模型分析(metafor R package),得到具有显著意义的subcluster。如下图所示


      image.png
    • 再使用 Kaplan-Meier analysis,根据这些significant subcluster SSZ score对病人进行分组,进行生存分析,绘制生存曲线。
      分组标准为:high (> 66%,T3), medium (33–66%, T2) and low (< 33%, T1)


    2.4 深入分析significant slucluster

    根据上一步分析得到的与病人生存显著相关的subcluster进行深入的生物学分析。可以结合subcluster在不同的病人、取样组织分布差异,2.2.1步骤里的功能注释;并结合每个subcluster的以下三种分析结果进行阐述。具体分析就不多做介绍了。

    (1)ssGSEA
    • single-sample gene set enrichment analysis;
    • 50 hallmark gene sets of MSigDB (Molecular Signatures Database)
    (2)ssGSVA
    • single-sample gene set variation analysis


    • the metabolic pathway signatures as listed by Gaude and Frezza*.

    Tissue-specific and convergent metabolic transformationof cancer correlates with metastatic potential and patient survival. NatCommun. 2016;7(1):1–9. Nature Publishing Group. Available from: https://doi.org/10.1038/ncomms13041.

    以上两种方法进行单样本的基因集分析,挖掘出每个subcluster的相关涉及通路

    (3) gene regulatory networks 调控网络分析
    • To detect transcription factors driving these 43 different subclusters;


    • SCENIC identifies regulons—gene sets that are co-expressed with known transcription factors—by cis-regulatory motif analysis.

    • pySCENIC package

    2.5 Final 2 generous analysis

    • (1)探索4种HGSTOC molecular subtypes的cell subcluster的分布比例特点及相关深入分析
      具体还是根据Bulk RNA-seq数据,根据之前的研究分为4种亚型,再结合2.3步骤计算的subcluster SSZ/xCell score展开讨论;


    • (2)Cell-cell interactions细胞通讯分析:探索不同cluster/subcluster间的interaction( CellphoneDB software)


    3、To further study

    3.1 需要进一步学习的分析方法

    • ssGSEA、ssGSVA
    • SCENIC
    • CellPhoneDB

    3.2 相关文章扩展

    相关文章

      网友评论

        本文标题:单细胞---HGSTOC卵巢癌的单细胞数据分析--subclus

        本文链接:https://www.haomeiwen.com/subject/upykmltx.html