作者:马可菠萝
编辑:amethyst
引言
植物中单细胞转录组的大规模研究受限于原生质体的制备。本研究提出了一种无需制备原生质体的单细胞转录组建库测序方法,flsnRNA-seq。基于10x Genomics和Nanopore平台实现了在单细胞水平上检测细胞核中全长转录本的突破。
一、背景简介
近年来,动物和人类中高通量的单细胞转录组的研究如火如荼。然而,只有少量的研究使用10x Genomics或Drop-seq平台来开展高通量的单细胞转录组研究。造成这种困境的主要原因是,植物细胞有细胞壁包裹,需要剥离细胞壁来释放单个细胞,但是破壁提取完整的原生质体较为困难,不同组织的处理方法也不尽相同。
此外,考虑到植物组织的复杂性,从所有细胞均匀的获取原生质体具有挑战性,而原生质体分离过程中的酶消化和随后的处理过程可能会触发应激反应从而影响转录组。
因此,一种无需原生质体制备的方法急需出现来打破上述壁垒。
二、文库构建
由于植物组织的细胞核的制备比较容易,使用10x Genomics平台对细胞核中的转录本信息进行测序并进行细胞身份识别。为了评估数目众多的含有内含子的转录本,同时进行了基于Nanopore 的文库构建和测序,并开发了一套生物信息分析流程(snuupy)(下图)。
图1. flsnRNA-seq建库测序分析示意图
细胞核进入10x Genomics Chromium平台,获得带有核特异条形码标记的全长cDNA模板,然后将其分成两等份,分别用于构建Illumina短读长文库和Nanopore长读长文库,并分别进行生物信息分析。
三、结果与讨论
本研究对拟南芥的根和胚乳分别进行了建库测序。由于拟南芥关于根的研究比较多,且有较多的单细胞转录组数据支持,首先基于拟南芥根组织的数据来验证flsnRNA-seq的有效性。
Illumina文库测序数据产出了1186个单细胞核的转录组结果,覆盖了18,913个基因,细胞核中基因数目的中值为810,细胞核中UMI数目的中值为1131。值得注意的是,细胞核中含有内含子的mRNA数目远高于总RNA(前人数据)中的数目(下图)。
图2. 转录本类型比例通过Illumina数据得到的表达矩阵和聚类分析显示,细胞核数据鉴定出了14个不同的细胞簇(下图),并根据拟南芥根细胞类型标记基因进行了注释,鉴定出了10个前人报道的细胞类型。与前人研究结果相似,本研究中的一些细胞类型是由多个簇组成的,如。如干细胞巢(cluster1、4和12),内皮层(cluster5和cluster8),暗示出细胞类型之外的异质性。
图3. 细胞聚类此外,本研究使用Scanorama 算法将 flsnRNA-seq数据与近期发表的拟南芥根组织原生质体单细胞数据进行了比较,发现表达丰度矩阵极其相似(下图)。
图4. 比对打分热图Heatmap表示由本研究生成的细胞核数据和前人发表的单细胞数据集之间的比对评分。比对评分使用Scanorama计算。得分越高,说明一对数据集之间的相似度越高。
总之,上述研究表明flsnRNA-seq转录组足以进行细胞类型鉴定分析,并且可以作为原生质体的可靠替代品。
对于Nanopore数据,一个关键的问题是测序准确性偏低,使得正确识别细胞barcode和UMI序列变得困难。为了解决该问题,本研究基于Sicelore算法开发出snuupy来检索barcode和UMI序列(下图)。
图5. Sicelore和snuupy算法的对比最终,Nanopore 数据分析得到了1169 个细胞核转录组,且Nanopore与Illumina的数据检出UMI、Gene的重叠性较高(下图)。
图6. Nanopore和Illumina分配数据的重叠性另外,Nanopore文库数据细胞聚类结果和Illumina文库数据的聚类结果很相似(下图)
图7. Nanopore细胞核数据聚类这表明Nanopore数据本身就足以对细胞类型进行分类,这与最近一项完全利用纳米孔数据对人类和小鼠细胞进行的大规模单细胞分析一致。
此外,Nanopore数据还可以提供转录本水平的信息,如:剪切和多聚腺苷酸化(APA),因此本研究额外生成两个转录本矩阵来研究剪切和APA。将上述矩阵对Illumina数据矩阵进行整合,以探究是否会提升细胞分型的准确性。
事实上,经过多层聚类后,原始的Illumina聚类结果中的cluster10(皮质)能够被分为2个亚细胞类型簇(下图)。
图8. 多层矩阵模式图以基因AT3G19010为例:Illumina的数据中,转录本AT3G19010存在于2.1和2.2型亚细胞中,Nanopore数据显示,这两个亚簇在剪接水平上存在很大的差异,在亚细胞类型2.2中,第二个内含子基本未剪接(下图)。
图9. AT3G19010基因Illumina和Nanopore比对reads至此,flsnRNA-seq的可靠性已经经过了验证,后续需要对其他类型的组织进行单细胞转录组的研究。
在开花植物中,种子发育是从双受精开始的,在此过程中卵细胞和中心细胞分别与精子细胞融合形成胚胎和胚乳。胚乳嵌在种皮中,负责向发育中的胚胎提供营养。拟南芥的胚乳中,受精后形成的原核经过几轮快速核分裂而没有胞质分裂,形成一个多核细胞,称为合胞体。合胞体细胞化并分化为三个胚乳域:珠孔、中央外周和合点(下图,右)。
对胚乳组织并进行单细胞核提取建库和测序,基于Illumina数据鉴定出了6个cluster(下图,左)。
图10. 胚乳单细胞聚类和细胞分布模式图随后使用Nanopore单细胞全长转录本数据来分析每个细胞核中的外显子滞留情况,结果显示cluster4(含有总细胞核的 14%)含有较高比例的不完全剪切转录本。在这一特定的胚乳核簇中,这可能反映了mRNA前体的延迟衰变、内含子转换率中断或转录的全局激活。
图11. 各cluster中不完全剪切比例(one-sided Kolmogorov-Smirnov test)使用前人报道的细胞类型富集基因来分配细胞,结果显示cluster4中的大部分细胞被注释为珠孔的胚乳(下图)。
图12. 各cluster中每个细胞类型的细胞核定量cluster4中上调表达基因的Gene Ontology (GO)分析显示,全部富集术语条目的功能均与膜相关,这些细胞可能与细胞膜生成有关,与前人的报道一致,拟南芥胚乳的细胞化始于珠孔胚乳。
图13. cluster4中上调基因GO分析综上,发现了一个独特的具有高比例不完全剪接转录物的胚乳核簇,进一步的研究可以确定这是由于转录的增加还是剪接延迟。
四、总结
作为在植物中的概念验证,本研究的结果表明,在拟南芥中,无需原生质体制备的大规模单核测序足以进行细胞类型分类和标记基因鉴定。
在10x Genomics平台上使用分离核进行单细胞测序的单个细胞成本仍然相对于原生质体的成本较高,使用细胞核建库捕获率偏低,这可能是由于细胞核的尺寸更小,因此,仍有进一步优化的空间。取代原生质体作为先决条件将使更多更复杂的组织和植物物种的大规模单细胞分析成为可能,然而,从某些组织类型的细胞中分离细胞核仍然具有挑战性,需要进一步建立和优化细胞核分离的方法。
本研究建立了一个整合纳米孔的全长RNA测序方法和单核测序的方法,能够在单核水平捕获细胞亚型的多样性,并可通过整合多层次的信息,来提升细胞类型分类的准确性。
五、参考资料
- Yanping Long et al. FlsnRNA-seq: protoplasting-free full-length single-nucleus RNA profiling in plants .2021. Genome Biology.
- SNUUPY: https://github.com/ZhaiLab-SUSTech/snuupy
网友评论