文献阅读 NBT：通过整合bulk和single-cell测序数

作者: 林枫bioinfo | 来源:发表于2022-04-30 20:24 被阅读0次

文献阅读 NBT：通过整合bulk和single-cell测序数
2019-10 文献阅读报告
2019-11 文献阅读报告
bulk and sc-RNA seq剖析HCC中肿瘤异质性，揭
2020-06-20
5月week2 文献阅读： Combined Single-Ce
文献阅读Orchestrating single-cell an
文献学习069--[sc+st]单细胞和空间转录组分析揭示结直肠
本周最新文献速递20211010
本周最新文献速递2020-11-28

介绍一篇文献：Identifying phenotype-associated subpopulations by integrating bulk and single-cell sequencing data，2021年发表于Nature Biotechnology，DOI号：10.1038/s41587-021-01091-3。算法已经写成了R软件包，放在GitHub上供使用：https://github.com/sunduanchen/Scissor。

要从单细胞数据中识别关键亚群，标准方法是执行无监督聚类来定义细胞群，检查每个细胞群的marker基因，并在已知的细胞类型和通路中评估marker基因的富集情况，以计算每个细胞群的重要性。然而，识别驱动表型（如疾病阶段、肿瘤转移、治疗反应和生存结果）的细胞亚群具有不可缺少的重要性，这有利于细胞类型靶向治疗和预后生物标志物的发现。大多数单细胞实验涉及不到20个患者样本，缺乏统计功效来识别驱动表型的细胞亚群。

有价值的临床表型信息可以从TCGA等大型项目中获取。因此可利用这些表型信息来指导对单细胞数据的细胞亚群识别。本研究提出了Single-Cell Identification of Subpopulations with bulk Sample phenOtype coRrelation (Scissor) 算法，通过利用bulk数据和对应表型信息，该算法自动从单细胞数据中选择与表型差异最有关联性的细胞亚群。

1. 概述

为了使用bulk数据和表型信息来协助单细胞数据分析，作者开发了一种算法Scissor，从单细胞数据中识别与给定表型相关度最高的细胞亚群。简而言之，Scissor的三个数据源是单细胞表达矩阵、bulk表达矩阵和感兴趣的表型。每个bulk样本的表型注释可以是一个连续型因变量、二元变量或临床生存数据。

Scissor的关键步骤是量化单细胞数据和bulk数据之间的相似性，如每对细胞和bulk样本的皮尔森相关性。之后Scissor优化了相关性矩阵与样本表型的回归模型。回归模型的选择取决于输入表型的类型，例如，连续型变量—线性回归，二分类变量—logistic回归，临床生存数据—Cox回归。因为驱动感兴趣表型的细胞往往是一个小子集，对回归模型施加稀疏惩罚和图正则化，以高置信度选择对给定表型具有重要性的相似细胞。根据估计的回归系数的符号，系数非零的细胞可表示为Scissor阳性细胞（Scissor+）和Scissor阴性细胞（Scissor−），它们分别与感兴趣的表型呈正相关和负相关。系数为零的细胞表示为背景细胞。此外，为了控制单细胞和bulk数据之间的假关联，作者设计了一个可靠显著性检验，以确定所选数据是否适合表型-细胞关联（基于置换检验）。

这里用 $m$ 和 $n$ 分别表示单细胞数据的细胞数和bulk样本数，样本表型记为 $Y$ ，构建皮尔森关联矩阵 $S=(S_{ij})_{n×m}$ ，量化单细胞数据和bulk数据之间的相似性。（此处巧妙地将bulk数据和单细胞数据相关联，生成的 $n×m$ 关联矩阵，将样本 $n$ 转化为观测，每个观测对应表型标签 $Y$ ， $m$ 个细胞则可看作 $m$ 个特征）。进而建立一个关联矩阵 $S$ 与表型 $Y$ 之间的回归模型：

$β$ 是细胞的系数向量， $l(β)$ 是针对不同类型 $Y$ 选择的对数似然函数，同时加了两项惩罚项，一个是常规的 $L1$ 正则，有利于参数稀疏化，使对于给定表型识别到的细胞具有高置信度，一个是受Seurat启发，基于细胞-细胞相似性网络 $G$ ，计算得到的拉普拉斯惩罚项。其中 $α$ 和 $λ$ 是模型超参数。

2. 在模拟数据中捕获表型相关的细胞亚群

利用软件模拟不同表型的单细胞细胞亚群数据和对应bulk数据。在模拟时，存在两种表型特异性细胞亚群间有真实差异表达基因，但标准单细胞分析流程却因为两种亚群被聚在一个cluster中而无法识别的情况。此时利用Scissor进行识别，可以发挥很好的效果，因为Scissor不需要对单细胞数据进行任何无监督聚类，从而避免了对细胞聚类数量或聚类分辨率的主观决定。

3. 在肺癌数据中确定肿瘤和正常表型的亚群。

以577个TCGA LUAD bulk样本指导Scissor的分析，表型是二元的，1代表肿瘤样本，0代表正常样本。对共29,888个细胞的单细胞数据进行识别，得到361 Scissor+细胞，534 Scissor−细胞。

4. 发现与较差生存相关的缺氧亚群，与TP53突变相关的细胞亚群

癌症细胞是异质性的，包括癌症干细胞等亚群，众所周知，这些细胞会推动肿瘤进展和不良预后。以471个TCGA LUAD匹配生存信息的bulk样本指导Scissor的分析，从与上述同一个肺癌单细胞数据集的4102个癌细胞中识别侵袭性癌细胞亚群。得到201个Scissor+ 细胞，关联于更差的预后，Scissor+细胞与其他细胞进行差异表达分析，发现23个与缺氧相关的基因过表达，功能富集分析证明了这一点。

以498个匹配了TP53突变信息的TCGA LUAD bulk样本指导Scissor的分析，得到414个Scissor+细胞和318个Scissor−细胞。对两组细胞进行差异表达分析，得到在Scissor+细胞中，337个基因上调，14个基因下调。上调的基因包括E2F靶基因和细胞周期进程相关的基因，如AURKA, CDK1, CCNB2和TOP2A，通过主要调控因子分析，得到转录因子FOXM1和MYC上调，而它们在正常的TP53野生型状态下处于抑制状态，FOXM1还与不良的预后相关。下调的基因包括HLA-A, B2M和CD74。

5. 鉴定与免疫治疗相关的T细胞亚群

为了理解免疫检查点阻断响应的机制，作者对黑色素瘤单细胞数据集进行了Scissor分析，以识别与免疫检查点阻断响应的T细胞亚群。利用70个有免疫治疗反应信息的bulk样本，对单细胞数据1,894个T细胞进行识别，得到105个T cells作为Scissor+细胞，高表达与记忆T细胞相关的CCR7和SELL及生存相关的IL7R和转录因子TCF7，低表达抑制性基因HAVCR2, LAG3, PDCD1和CTLA4及MHC II类基因HLA-DRB5, HLA-DRB1, HLA-DPA1, HLA-DQB2和HLA-DRB6。这些结果表明，单细胞数据的Scissor分析能够识别与特定表型相关的亚群，即使单细胞数据本身没有这样的表型信息。在非癌症数据中，Scissor的有效性也得到验证。

最后的最后，按惯例重温一下重点和摘要：

One of the advantages is that Scissor does not require any unsupervised clustering on single-cell data, which avoids subjective decisions of cell cluster numbers or clustering resolution. Most importantly, Scissor provides a flexible framework to integrate various external phenotypes in bulk data to guide single-cell data analysis, enabling hypothesis-free identification of clinically and biologically relevant cell subpopulations.

参考：
https://sunduanchen.github.io/Scissor/vignettes/Scissor_Tutorial.html

文献阅读 NBT：通过整合bulk和single-cell测序数
介绍一篇文献：Identifying phenotype-associated subpopulations by...
2019-10 文献阅读报告
十月文献阅读记录文献阅读一 Current best practices in single-cell RNA-...
2019-11 文献阅读报告
十一月文献阅读报告 2019.11 蔡佺佑文献阅读一 Batch effects in single-cell ...
bulk and sc-RNA seq剖析HCC中肿瘤异质性，揭
Integrating bulk and single-cell RNA sequencing reveals c...
2020-06-20
文献阅读 Eleven grand challenges in single-cell data science....
5月week2 文献阅读： Combined Single-Ce
5月week2 文献阅读： Combined Single-Cell Profiling of lncRNAs a...
文献阅读Orchestrating single-cell an
文献题目：Orchestrating single-cell analysis with Bioconductor...
文献学习069--[sc+st]单细胞和空间转录组分析揭示结直肠
作者通过整合分析scRNA-seq数据、公开发表的scRNA-seq和bulk RNA-seq数据集、空间转录组数...
本周最新文献速递20211010
本周最新文献速递20211010 一、精细解读文献一文献题目： Single-cell epigenomics...
本周最新文献速递2020-11-28
本周最新文献速递一文献题目： A Single-Cell Transcriptomic Atlas of Hu...