为什么要学习单细胞 RNA-seq?
在人体组织中,细胞类型、状态和相互作用是非常多种多样的。为了更好地了解这些组织和存在的细胞类型,scRNA-seq提供了对在单个细胞水平上的基因表达
image这种前沿方法可用于:
- 探索组织中存在哪些细胞类型
- 识别未知/稀有细胞类型或状态
- 阐明分化过程中或跨时间或不同状态的基因表达变化
- 识别在不同条件(例如治疗或疾病)的特定细胞类型中差异表达的基因
- 在结合空间、调节和蛋白质表达信息的同时,探索细胞类型之间的表达变化
scRNA-seq是解决一些更常见研究的流行方法,主要包括:
- 细胞异质性
- 谱系追踪
- 随机基因表达
scRNA-seq 分析面临的挑战
在 scRNA-seq 之前,转录组分析是使用Bulk RNA-seq,这是一种直接比较细胞表达平均值的方法。如果想要查看比较转录组学(例如来自不同物种的相同组织的样本)或者在疾病研究中量化表达特征,这种方法可能是一个不错的选择。如果您不期望或不关心样本中的细胞异质性,它还具有发现疾病生物标志物的潜力。
虽然Bulk RNA-seq 可以探索不同条件(例如治疗或疾病)之间基因表达的差异,但无法充分捕获到细胞水平的差异。例如,在下图中,如果进行Bulk分析(左),我们将无法检测到基因 A 和基因 B 表达之间的正确关联。但是,如果我们按细胞类型或细胞状态对细胞进行正确分组,我们可以看到基因之间的正确关联。
image图片来源: Trapnell, C. 用单细胞基因组学定义细胞类型和状态,2015 年基因组研究(doi:https : //dx.doi.org/10.1101/gr.190595.115)
尽管 scRNA-seq 能够在细胞水平上捕获表达,但样本生成和文库制备更加昂贵,而且分析更加复杂且难以解释。scRNA-seq 数据分析的复杂性包括:
- 数据量大
- 每个细胞的测序深度低
- 细胞/样品之间的技术差异
- 细胞/样品之间的生物变异性
我们将在下面更详细地探讨每一个复杂性:
数据量大
来自 scRNA-seq 实验的表达数据代表了数千个细胞的数万或数十万个读数。数据输出要大得多,需要更多的内存来分析、更大的存储需求和更多的时间来运行分析。
每个细胞的测序深度低
对于基于液滴的 scRNA-seq 方法,测序深度较浅,通常每个细胞只能检测 10-50% 的转录组。这导致细胞显示许多基因的计数为零。然而,在特定细胞中,基因的零计数可能意味着该基因没有被表达,或者只是没有检测到转录本。在细胞中,表达水平较高的基因往往具有较少的零。由于这个特性,许多基因在任何细胞中都不会被检测到,基因表达在细胞之间会有很大的变化。
Zero-inflated ?scRNA-seq 数据通常被称为零膨胀;然而,最近的分析表明,考虑到测序深度,它所包含的零并不比预期的多Valentine Svensson的博客文章。最近一篇讨论scRNA-seq数据建模的论文也可用(https://www.nature.com/articles/s41588-021-00873-4)。
跨细胞/样品之间的生物学差异
生物学差异的无用来源可能导致细胞之间的基因表达比实际生物细胞类型/状态更相似/不同,这可能会掩盖细胞类型的标识。
生物学差异的无用来源(除非实验研究的一部分)包括:
- 转录爆发:并非所有基因的基因转录都一直处于开启状态。收获的时间将决定基因在每个细胞中是开启还是关闭。
- RNA处理速率不同:不同的 RNA 处理速率不同。
- 连续或离散的细胞特性(例如每个单独 T 细胞的促炎症潜能):根据定义,连续表型在基因表达中是可变的,有时很难将连续的与离散的分开。
- 环境刺激:细胞的局部环境可以根据空间位置、信号分子等影响基因表达。
- 时间变化:基本的细胞流动性过程,如细胞周期,会影响单个细胞的基因表达谱。
图片来源: Wagner, A 等。用单细胞基因组学揭示细胞身份的载体,Nat Biotechnol。2016 (doi:https://dx.doi.org/10.1038%2Fnbt.3711)
细胞/样品之间的技术差异
技术差异来源可能导致细胞间的基因表达因技术差异而变的更加相似或不同,而不是生物细胞的类型/状态变化造成的,这会模糊细胞类型的一致性。
技术差异的来源包括:
-
细胞特异性捕获效率:不同的细胞捕获的转录本数量不同,从而导致测序深度不同(例如转录组的 10-50%)。
-
文库质量:降解的 RNA、低活力/垂死细胞、大量游离 RNA、解离差的细胞以及细胞定量不准确可能导致质量指标低下
-
扩增偏差:在文库制备的扩增步骤中,并非所有转录本都被扩增到相同水平。
-
批次效应:批次效应是 scRNA-Seq 分析的一个重要问题,因为您可以看到仅由于批次效应而导致的显着差异。
image
- 图片来源: Hicks SC 等人,bioRxiv (2015)(https://www.biorxiv.org/content/early/2015/08/25/025528)
为了探索由糟糕的批量研究设计产生的问题,[该文](https://f1000research.com/articles/4-121/v1)很好说明了这些问题。
如何知道是否有批次效应呢?
- 所有的 RNA 分离都是在同一天进行的吗?
- 所有文库准备工作是否在同一天进行?
- 是否由同一个人对所有样品进行 RNA 分离/文库制备?
- 您是否对所有样品使用了相同的试剂?
- 您是否在同一地点进行了 RNA 分离/文库制备?
如果其中有任何答案是'No',那么就有批次效应。
关于批次的做好做法:
- 如果可能的话,以一种避免批量的方式设计实验。
- 如果无法避免批次: 不要批量混淆实验:
图片来源: Hicks SC 等人,bioRxiv (2015)(https://www.biorxiv.org/content/early/2015/08/25/025528)
- 不要对不同的样本组进行分批重复,跨批次拆分不同样本组的重复样本。如果跨条件进行DE或在总体水平上得出结论,则重复越多越好(肯定大于2)。如果使用一次准备一个库的inDrops,则交替使用样品组(例如,不要先准备所有对照库,然后准备所有处理库)。
图片来源: Hicks SC 等人,bioRxiv (2015)*
- 不要在您的实验初始数据中包含批处理信息。在分析过程中,我们可以消除由于批次引起的差异,也可以跨批次进行整合,因此,只要我们掌握了这些信息,就不会影响我们的结果。
结论
虽然scRNA-seq是一种功能强大且有见地的可以从单细胞水平分析基因表达的方法,但仍存在许多挑战和变异来源,这可能会使数据分析变得复杂或有限。
总体而言,我们建议关注以下内容:
- 除非对你所研究的实验问题非常有必要,否则不要做单细胞 RNA-seq。你可以使用更简单且成本更低的批量测序来解决这个问题。也许 FACS 可以对样品进行分类,进行批量分析?
- 了解你希望解决的实验问题的细节。推荐的文库制备方法和分析工作流程可能因特定实验而异。
- 如果可能,避免可变性的技术来源:
- 实验开始前与相关专家讨论实验设计方案
- 从样本中同时分离 RNA
- 同时准备文库或交替样品组以避免批次混淆
- 不要按性别、年龄或批次混淆样本组
参考文献:
https://hbctraining.github.io/scRNA-seq_online/lessons/01_intro_to_scRNA-seq.html
网友评论