题目:Single-cell RNA counting at allele and isoform resolution using Smart-seq3
期刊:Nature Biotechnology
通讯作者:Rickard Sandberg
1. 背景
大多数单细胞RNA测序(scRNA-seq)方法通过将唯一分子标识符(UMI)与RNA的一小部分(从5 '或3 '端)一起测序来计数RNA 。这些RNA末端计数策略已经在估计大量细胞的基因表达时有效,同时控制PCR扩增偏差,然而RNA末端测序提供有限的转录遗传变异和转录异型表达的覆盖范围。此外,许多大规模并行方法的灵敏度相当低(即只捕获细胞中存在的一小部分rna)。相比之下,Smart-seq2结合了更高的灵敏度和全长覆盖,从而实现了等位基因解析表达分析,但代价是细胞吞吐量较低,成本较高,并且不包含UMIs。使用长读测序技术对全长转录本进行测序可以直接量化等位基因和亚型水平的表达,但其目前的读深阻碍了其在细胞、组织和器官间的广泛应用。为了克服这些缺点,我们试图开发一种敏感的短读测序方法,该方法将扩展RNA计数范式,直接将单个RNA分子分配到异构体,并在单细胞中建立其等位基因起源。
2 目的
为了克服这些缺点,我们试图开发一种敏感的短读测序方法,该方法将扩展RNA计数范式,直接将单个RNA分子分配到异构体,并在单细胞中建立其等位基因起源。
3 工作流程
overview of Smart-seq34 方案优化
4.1使用Maxima H-minus reverse transcriptase (Maxima)获得最高的敏感性。
4.2注意到,与标准KCl条件相比,在逆转录过程中将盐从KCl切换到NaCl或CsCl可以提高基于Maxima的单细胞反应的敏感性,这很可能是由于RNA二级结构的减少。
4.3正如最近所证明的那样,在5% PEG中进行逆转录可以通过分子拥挤提高产量,并且我们添加了GTPs或dCTPs来稳定或促进模板转换反应。
4.4我们测试了几种DNA聚合酶,其中KAPA HiFi热启动聚合酶与反应化学最相容,产生了最高的灵敏度。
4.5构建了一个模板切换寡核苷酸(TSO),它含有一个引物位点,由一个部分Tn5基序和一个新的11 bp标记序列组成,随后是一个8 bp UMI序列和三个核鸟苷,后者与单链cDNA末端的非模板核苷酸杂交。测序后,11-bp标记可用于明确区分含有5 ' umi的读取和内部读取。我们观察到剩余的TSO寡核苷酸可以在PCR过程中启动,因此导致检测到的UMIs的虚假增加,而不影响基因检测。
5应用
5.1等位基因和异构体分辨下的单细胞RNA计数。
为了实验研究RNA分子的重建,我们从369个独立的原代小鼠成纤维细胞(来自CAST/EiJ和C57/Bl6J品系的F1后代)中创建了Smart-seq3文库,并对其进行了双端测序。
等位基因和异构体分辨下的单细胞RNA计数
在所有检测到的分子中,通过直接测序与UMI相关的SNP对等位基因起源的明确识别(图2b),并随着转录本内SNP密度的增加而增加(图2c)。先前的单细胞研究估计等位基因的表达是RNA定量(分子或RPKMs)和支持每个等位基因的含snp的reads部分的产物7,12,14。接下来,我们研究了如何将这些估计与Smart-seq3实现的直接等位基因RNA计数进行比较。当在细胞上聚集时,等位基因表达估计和直接等位基因RNA计数显示出良好的总体相关性(图2d)。此外,使用线性模型来量化细胞内基因间两种测量方法的一致性,显示出很强的相关性(Spearman 's rho = 0.82±0.08,斜率= 0.88±0.06),没有任何明显的偏差(截距= 0.06±0.03)(图2e)。因此,直接的等位基因RNA计数在单细胞中是可行的,并验证了先前通过分离表达和单细胞中等位基因估计来估计等位基因表达的研究。
等位基因分辨的scRNA-seq可用于推断具有转录特征的基因表达爆发动力学。引人注目的是,基于Smart-seq3的分析比单独使用带有5 ' UMI的Smart-seq2可实现数千个基因的动力学推理(使用Smart-seq3可实现11,766个基因,使用Smart-seq2-UMI可实现8,464个基因),并且CAST和C57等位基因之间的相关性显著提高(对于突发频率和大小,Smart-seq3分别为0.94和0.75,Smart-seq2-UMI分别为0.79和0.68)(图2f和扩展数据图5c,d)。我们得出结论,Smart-seq3能够更敏感地重建单细胞的转录爆发动力学。
在我们对369个细胞的实验中,我们观察到总共有22,196个分子被重建为1.5 kb或更长,大约有200,000个分子被重建为1 kb或更长(图2g)。平均来说,我们重建了8710个分子,每个细胞的长度为500bp或更长。为了验证RNA重建,我们进一步扩增了两个成纤维细胞的cDNA (Smart-seq3预扩增),用于PacBio测序(补充方法)。比较用Smart-seq3和PacBio检测到的错误校正的UMIs,得到54302个匹配的RNA分子,并证明Smart-seq3重建平均捕获了PacBio检测到的全长序列的46%(扩展数据图6a)。对其中一个最长的重构分子(来自Col1a2位点)的详细检查发现,Smart-seq3准确地重构了这个2.3 kb转录本中的1.9 kb(扩展数据图6b)。
重建的分子通常可以被分配到特定的转录异构体,这里用来自Cox7a2l基因的两个重建分子的Sashimi图举例说明(图2h)。
将重建的rna与Ensembl转录本注释进行比较,发现所有分子中有53%可以归属于单一异构体(仅考虑多异构体基因时为41%)(图2i)。
此外,将Smart-seq3中具有独特异构体配位的分子与PacBio测序检测到的匹配分子中的异构体进行比较,结果表明99%的分子配位一致(扩展数据图6c,d)。
品系特异性转录本异构体调控以前很难研究,因为同时量化品系特异性SNP和相同RNA上的剪接结果一直具有挑战性。我们将硅质重组分子分别分配到等位基因起源和转录异构体结构,结果显示2172个基因的转录异构体表达具有统计学意义的品系特异性(CAST或C57)(校正后P < 0.05,卡方检验,benjamni - hochberg校正;(图2j和补充表2)。例如,Hcfc1r1的转录本被加工成两种异构体(ENSMUST00000024697和ENSMUST00000179928),这两种异构体在编码序列(从12 bp的3 '剪接位点使用3-氨基酸缺失)和5 '非翻译区剪接上都不同。值得注意的是,这两种亚型在品系之间具有显著的互排性表达模式(校正P < 10−208,卡方检验,Benjamini-Hochberg校正)(图2k)。因此,Smart-seq3可以同时量化基因型和剪接出来,这里以小鼠的品系特异性剪接模式为例。
5.2复杂的样本上对Smart-seq3进行基准测试。
我们对来自人类细胞图谱(HCA)基准样本的5376个单个细胞进行了测序,HCA是一种冷冻保存的复杂细胞样本,由人类外周血单个核细胞(pmcs)、原代小鼠结肠细胞和人HEK293T、小鼠NIH3T3和狗MDCK细胞的细胞系spike-in组成。
复杂的样本上对Smart-seq3进行基准测试
总之,这些结果突出了使用Smart-seq3查询跨细胞类型的亚型表达和调控的新改进的能力。
6. 优点
哺乳动物的基因通常会从每个基因产生多个转录异构体,并经常影响RNA和蛋白质的功能。使用短读测序技术对转录本异构体表达的分析通常集中在单个剪接事件(例如,跳过的外显子)或使用共享和唯一异构体区域的读覆盖来推断最有可能的异构体表达。这是因为配对的短读很少携带足够的信息来评估远端剪接结果之间的相互作用或与转录遗传变异的等位基因表达结合。
全长覆盖度,直接检测异构体表达;相比于三代和二代数据的结合更加灵敏且节约成本:
长读测序技术可用于直接测序单细胞转录异构体。然而,这些策略限制了细胞的通度和深度。例如,Mandalorion方法提供了7个细胞的全面异构体数据,而scISOr-seq研究了数千个细胞中平均260个分子的异构体表达。相比之下,我们平均每个细胞获得了8710个重建分子(超过500bp)。此外,在scISOr-seq中,预先扩增的cDNA在短读测序仪和长读测序仪上并行测序,以表征细胞类型和亚型,异构水平测序数据主要按聚类在细胞上聚合。使用两种平行文库构建方法和测序技术对来自单个细胞的相同预扩增cDNA进行测序大大增加了成本和人工。
Smart-seq3既具有高度敏感性,从而提高了识别细胞类型和状态的能力,又具有异构体特异性,可以同时在细胞中重建数百万个部分转录。与已知的转录异构体对照相比,这些部分转录物重建足以将40-50%的检测分子分配到特定的异构体上,这进一步揭示了品系和细胞类型特异性的异构体调控。
UMI:控制PCR扩增偏差
7 补充
Smart-seq3 TSOs; 5′-biotin-AGAGACAGATTGCGCAATGNNNNNNNNrGrGrG-3′;
Smart-seq2 TSO (5′-AAGCAGTGGTATCAACGCAGAGTACATrGrG+G-3′)
Smart-seq3 RT
RT-
-RT
网友评论