原网站
2 Introduction to Single-Cell RNA-seq
有关单细胞测序的问题
定义、与bulk rna seq的区别?
经典应用?
样本准备的要点?
经典protocol的区别 优点和缺点?
实验设计要考虑的问题?
相比bulk数据 有哪些难点?
2.1 回顾
RNA-seq允许以高效且低成本的方式分析样品中的转录本。 这是 00 年代后期的一项重大突破,此后变得越来越流行,几乎取代了其他转录组分析技术,例如微阵列。 其成功的原因是RNA-seq允许对样本中的所有转录本进行无偏倚采样,而不是局限于一组预先确定的转录本(如微阵列或RT-qPCR)。
RNA-seq用于由细胞混合组成的样品中,称为bulk RNA-seq,并具有许多应用。 例如,它可用于表征健康/患病、野生型/突变或对照/处理样品中组织之间的表达特征。 在进化研究中使用比较转录组学研究不同物种组织样本。 除了用于转录本定量外,它还可用于在生物体中查找和注释新基因、基因亚型和其他转录本。
readsCount、RPKM/FPKM、RPM(CPM)、TPM的理解
RPKM、FPKM、TPM详解 -
基因的Transcript Variant 和 isoform区别
同源异构体(isoform)和转录变异体(transcript variant)
isoform和transcript variant有什么区别和联系?
然而,使用bulk RNA-seq,我们只能估计每个基因在细胞群中的平均表达水平,而不考虑该样本中单个细胞中基因表达的异质性。 因此,它不足以研究异质系统,例如早期发育或复杂组织如大脑的研究。
![](https://img.haomeiwen.com/i29318468/e7b3bf4414022dbb.png)
为了克服这一局限性,Tang et al. 2009开发了允许在单细胞水平(scRNA-seq)应用RNA-seq的新方案,并于2009年首次发表。 这项技术从2014(ref)年左右开始变得更加流行,当时新的协议和更低的测序成本使其更容易完成。 与批量方法不同,使用scRNA-seq,我们可以估计每个基因在细胞群中的表达水平分布。
这使我们能够根据转录组中的细胞特异性变化回答新的生物学问题。例如,发现新的或稀有的细胞类型,识别健康/患病组织之间的差异细胞组成,或了解发育过程中的细胞分化。 这项技术最具标志性的用途之一是建立基因图谱(见下框),它提供了生物体细胞多样性的综合纲要,在健康和基础研究中有许多应用。
单细胞图谱
有许多项目提供生物体细胞的综合目录。
包括人、小鼠、果蝇、线虫、拟南芥
这里列出部分
- Human Cell Atlas (H. sapiens)
- Tabula Muris (M. musculus)
- Fly Cell Atlas (D. melanogaster)
- Cell Atlas of Worm (C. elegans)
- Arabidopsis Root Atlas (A. thaliana)
scRNA-seq数据集的大小从数百到数百万个细胞不等,并且规模每年都在增加。
有几种不同的商业和开源方案可用,每种方案都有自己的优点和缺点。
我们将在以下各节中讨论。
![](https://img.haomeiwen.com/i29318468/4b9b94f393637e5f.png)
(image taken from Svensson et al.)
2.2 样品制备方案
从广义上讲,典型的scRNA-seq方案包括以下步骤(如下图所示):
组织解剖和细胞解离以获得细胞悬浮液。
可以选择特定细胞(基于膜标记物、荧光转基因或染色染料)。
将单个细胞捕获到单个反应容器(例如孔或油滴)中。
从每个细胞中提取RNA。
将 RNA 逆转录为更稳定的 cDNA。
扩增cDNA(PCR或者in vitro transcription 体外转录)。
使用足够的分子adapter制备测序文库。
测序,通常使用双端Illumina方案。
处理原始数据以获得计数矩阵
进行多项下游分析(本课程的重点)。
单端测序(Single-read)与双端测序(Paired-End)
本课程主要涉及此工作流的最后一步,但考虑在此之前的一些步骤也很重要,因为它们会影响我们获得的数据的属性。
![](https://img.haomeiwen.com/i29318468/3f68476fd509d525.png)
来源Lafzi et al. 2018.
目前,获得scRNA-seq数据的方案种类繁多,每种方案都有自己的优点和缺点,我们将在下面介绍。 这些方法可以以不同的方式分类,但最重要的两个方面是细胞捕获或分离以及转录本定量。
![](https://img.haomeiwen.com/i29318468/6fcd7dd00e4d1675.png)
(source: Chen, Teichman and Meyer, 2018)
单细胞核RNA-seq
在细胞解离困难的组织或冷冻组织样本中,可以分离单个细胞核,而不是分离整个单细胞。 除分离步骤外,制备单核测序文库的方案与单细胞方案相似。 然而,核RNA通常含有更高比例的未加工RNA,因此更多的测序转录本含有内含子。 在数据处理步骤中需要考虑这一方面,我们将在下一章中详细介绍。
2.3 细胞捕获
用于捕获细胞的策略决定了实验的通量(即我们分离细胞的数量),细胞如何获得,以及除了转录本序列之外可以获得的附加信息。 三种最广泛使用的选择是基于微孔板、基于微流控阵列和基于微流控液滴的方法。
![](https://img.haomeiwen.com/i29318468/be6ffa3c4b1c05d1.png)
微孔板方法使用移液、显微切割或流式细胞荧光分选 (FACS) 等方法将细胞分离到板的各个孔中。 基于孔的方法的一个优点是可以在文库制备之前拍摄细胞的照片,从而提供额外的数据。 例如,可以识别并丢弃受损的细胞,或找到 doublets具有两个或更多细胞的孔。 当使用自动FACS分选时,还可以将细胞大小和标记强度等信息与孔坐标相关联,从而与下游分析中的单个细胞指标相关联。 这些方法的主要缺点是通量低,并且所需的工作量相当大。
微流控阵列平台如Fluidigm’s C1,
提供了一个更加集成的系统,用于捕获细胞和进行文库制备。 它们提供了比基于微孔板的方法更高的通量。通常,只有大约 10% 的细胞在微流控平台中被捕获,因此,如果处理稀有细胞类型或非常少量的输入,它们就不合适。 还必须注意阵列捕获的细胞大小,因为纳米孔是针对特定大小定制的(这可能会影响复杂组织中细胞的无偏采样)。 此外,芯片相对昂贵,但由于反应可以以较小的体积进行,因此可以节省试剂费用。
![](https://img.haomeiwen.com/i29318468/2f1652e08d271cf6.png)
微流控液滴方法提供最高的通量,是当今最流行的方法。工作原理是将单个细胞与珠子一起封装在纳升大小的油滴中。磁珠上加载了构建文库所需的酶和其他组分。特别是,每个磁珠都包含一个唯一的 barcode,该 barcode可以添加到源自该细胞的所有测序read上。因此,所有液滴都可以一起汇集、测序,随后根据这些 barcode将read分配给原始细胞。微滴平台的文库制备成本相对便宜,约为 0.05 美元/细胞。相反,测序成本往往成为限制因素,典型的实验覆盖率很低,只检测到几千个不同的转录本 (Ziegenhain et al. 2017).
荧光细胞分选 (FACS) 可用于任何捕获方法的上游,以选择细胞亚群。 一种常见的方法是用区分活细胞和死细胞的染料对细胞进行染色(例如膜破裂),富集活细胞。
2.4 转录本定量
转录本定量有两种类型:full-length 和tag-based。 全长方案试图在整个转录本上实现统一的读取覆盖率,而基于标签的协议仅捕获 5' 或 3' 端。定量方法的选择对数据可用于哪些类型的分析具有重要意义。
NGS 测序深度和覆盖度—Depth、Coverage
为单细胞制备全长文库与bulk RNA-seq(下图)中所做的基本相同,并且仅限于基于板的方案,如SMART-seq2。 尽管从理论上讲,全长方案应提供转录本的均匀覆盖率,但有时整个基因组的覆盖率可能存在偏差(如下图所示)。 全长协议还允许检测剪接变体,这是其他协议很难做到的。
![](https://img.haomeiwen.com/i29318468/28b423216257f46c.png)
![](https://img.haomeiwen.com/i29318468/7a4a87b2d8e9ac64.png)
使用基于标签的方案,仅对转录本的一端(3'或5')进行测序。 基于标签的方案的主要优点是可以与唯一分子标识符 (UMI) 结合使用,这有助于提高转录本定量的准确性。 这种改进的原因与文库制备过程中的PCR扩增步骤有关,该步骤会为每个分子创建多个重复的拷贝。 由于这种扩增是指数级的,分子可能在最终文库中不以原来的比例表达,出现由于这些PCR重复而高估其表达的结果。 为了解决这个问题,细胞barcode被随机核苷酸序列唯一地标记,即UMI,因此该序列对于单个分子是唯一的。 该UMI是测序读长的一部分,然后在量化转录本的丰度时可以进行计算考虑。 目前大多数scRNA-seq方案都是基于标签的,包括流行的基于液滴的10x Chromium方案,如下图所示。 基于标签的协议的一个缺点是,仅限于转录本的一端,它降低了我们明确将reads与转录本对齐的能力,并且难以区分不同的亚型(Archer et al. 2016).
![](https://img.haomeiwen.com/i29318468/2cc34cf23b116014.png)
(source: Chromium Next GEMSingle Cell 3ʹ User Guide)
5'还是3'?
基于 5' 和 3' 标签的方案之间的区别在于对转录本的哪一端进行测序。 虽然 3' 协议更常用,但许多协议现在允许从任一端进行测序(例如,10x Chromium 同时支持两者)。 5'-末端测序的优点是,我们可以获得有关转录起始位点(TSS)的信息,从而可以探索不同细胞之间是否存在不同的TSS usage。
2,5 实验设计
在进行scRNA-seq实验时,需要考虑几个因素。 每个细胞的成本、需要多少个细胞或每个细胞测序多少等因素都可能影响我们对方案的选择。 另一方面,必须注意避免由于批次在不同时间处理而导致的偏差,并且缺乏足够的重复也可能限制可以进行的分析类型,从而限制我们回答感兴趣的问题的能力。
2.5.1 我应该选择什么协议?
最合适的平台取决于手头的生物学问题。例如,如果对表征异质组织的组成感兴趣,那么基于液滴的方法更合适,因为它允许以几乎无偏倚的方式捕获大量细胞。另一方面,如果对具有已知表面标记物的特定细胞群感兴趣,那么最好使用FACS进行富集,然后在较高的测序深度下对较少数量的细胞进行测序。
显然,如果有兴趣研究不同的亚型,全长转录本定量将更合适,因为标记方案在这方面能力有限。UMI只能与标记方案一起使用,它们可以提高基因水平的定量。
如果对稀有细胞类型(没有已知标记物)感兴趣,则需要对更多细胞进行测序,这将增加实验成本。 Satija实验室开发了一个有用的工具,用于估计要测序的细胞数量。
也可以依靠专门比较不同方案的研究决定使用哪种方法。这些研究的重点是灵敏度(每个细胞检测到多少个基因)、准确性(例如与批量 RNA-seq 相比)以及它们回收样品中存在的所有细胞类型的能力(在市售细胞混合物上测试)等问题。 例如,Ding et al. 2020的一项研究说明了与高通量方法(如 10x Chromium)相比,低通量方法具有更高的灵敏度(下图)。 另一方面,低通量方法无法捕获样品中一些较稀有的细胞类型,导致细胞群的表征不完整。
![](https://img.haomeiwen.com/i29318468/15b62656ebff354e.png)
Ziegenhain et al. 2017的另一项研究对同一小鼠胚胎干细胞(mESCs)样本进行了五种不同的方案,得出了类似的结论。 最后,Svensson et al. 2017等人的一项研究使用已知浓度的合成转录本来测量不同方案的准确性和灵敏度。通过比较研究,他们还报告了方案之间的实质性差异(下图)。
![](https://img.haomeiwen.com/i29318468/3286a0040e8c58c0.png)
数据来源:Svensson et al.,
随着协议的开发和改进,以及用于定量技术噪声的新计算方法的出现,未来的研究可能会帮助我们进一步了解不同方法的优势。这些比较研究不仅有助于决定使用哪种方案,而且有助于开发新方法,因为基准测试可以确定哪些策略是最有用的策略。
除了方案之间通量和灵敏度的差异外,在规划scRNA-seq实验时,成本也可能是一个决定性因素。 很难精确估计一个实验的成本,尽管我们指出了Satija实验室的这个工具作为起点:https://satijalab.org/costpercell/。 例如,一些基于液滴的方案(如 Drop-seq)比商业替代品(如 10x Chromium)便宜。然而,他们需要实验室配备文库,以及训练有素的员工和专门的时间(花费工资)。
cell hashing 等方法(Stoeckius et al.)可以进一步降低使用平台进行测序的成本。 这种方法包括将寡核苷酸标签附着在细胞膜上,允许每次实验加载来自多个样品的更多细胞,稍后可以在分析过程中进行demultiplexed 文库拆分。
2.5.2 挑战
批量RNA-seq和单细胞RNA-seq之间的主要区别在于,每个测序文库代表一个细胞,而不是一个细胞群。 因此,没有办法在单细胞水平上进行“生物学重复”:每个细胞都是独一无二的,不可能重复。 细胞可以通过相似性进行聚类,然后可以在相似的细胞组之间进行比较(我们将在本课程后面看到)。
单细胞RNA-seq的另一大挑战是,每个细胞的起始材料量非常低。 这导致数据非常稀疏,其中大多数基因仍未被检测到,因此我们的数据包含许多零。 这可能是由于基因在细胞中没有表达(“真正的”零),或者基因被表达但我们无法检测到它(“dropout”)。 这导致细胞间变异并不总是生物学上的,而是由于细胞间PCR扩增不均匀和基因“dropout”(在一个细胞中检测到基因,但在另一个细胞中不存在基因(Kharchenko, Silberstein, and Scadden 2014))引起的技术问题。 提高转录本捕获效率和降低扩增偏差是解决这些问题的方法,也是目前仍是活跃的技术研究领域。 通过适当的数据规一化,可以缓解其中一些问题。
另一个需要考虑的重要问题是批次效应。 即使使用不同的技术对相同的材料进行测序(下图),也可以观察到这些情况,如果未正确归一化,可能会导致错误的结论。
Adapted from Zhang et al..
![](https://img.haomeiwen.com/i29318468/55e30c4c5f787068.png)
样品的处理也应避免在实验控制变量(如治疗、基因型或疾病状态)与样品制备和测序时间之间产生混淆。 例如,如果计划一项实验来比较 10 名患者的健康和患病组织,如果每天只能处理 10 个样本,最好每天一起做 5 个健康 + 5 个患病,而不是一天准备所有健康样本,而在另一天准备所有患病样本(图)。 另一个考虑因素是确保组织样本的重复。 例如,从器官收集组织时,从器官的不同部位采集多个样本可能是个好主意。 或者考虑一天中收集样本/重复的时间(由于基因表达可能发生昼夜节律变化)。 总之在进行scRNA-seq时,应考虑实验设计中常见的最佳实践。
Figure from Hicks et al..
![](https://img.haomeiwen.com/i29318468/10b6e929cdad6c1a.png)
2.6 小结
scRNA-seq非常适合研究异质性细胞群。例如,识别构成组织的细胞类型,为不同的细胞类型定义“transcriptional fingerprints”,研究细胞分化,探索由于疾病或环境因素导致的细胞组成变化等。
典型的样品制备工作流程包括分离单细胞(或细胞核)、将RNA转化为cDNA、制备测序文库(Illumina)和测序。
许多单细胞方案已经开发出来,有些是公开的,有些是商业提供的。这些主要区别在于其通量(每次实验捕获多少细胞)、定量类型(全长或基于标签)以及成本。
SMART-seq2 是一种常用的低通量方法,可提供全长转录本定量。它非常适合更详细地研究一小群细胞(例如 differential isoform usage差异亚型使用、低表达转录本的表征)。
10x Chromium 是一种常用的高通量方法,使用 UMI 进行转录本定量(从 3' 或 5' 端开始)。它非常适合研究高度异质的组织和大规模采样大量细胞。
在计划实验时,应避免由于批次效应而混淆,并确保足够的重复以解决问题。
网友评论