人类前额叶背外侧皮质转录组尺度的空间基因表达
Kristen R. Maynard
一些基础内容,放在前面:
空间转录组学:将基因的表达与组织切片的免疫组化图像进行整合,从而将组织内不同细胞的基因表达信息定位到组织的原始空间位置上去,区分哪些基因在组织内是活跃的,达到直观检测组织中不同部位基因表达的差异。
空间转录组原理Visium空间转录组是把切片在芯片上展开,在空间上用条形码来保留切片上每个小点的空间位置信息。
发表期刊:bioRxiv
发表时间:2020年2月
发表单位:美国约翰霍普金斯医学院等
ABSTRACT:
该研究使用10x Genomics Visium平台研究了六层的人类背外侧前额叶皮层(DLPFC)中基因表达的空间结构。研究确定了广泛的层富集的表达特征,并细化了与以前层标记的关联。将层表达特征叠加到大规模的单核RNA测序数据上,增强了表达驱动簇的空间标注。通过整合神经精神障碍基因集,显示了精神分裂症和自闭症谱系障碍相关基因的差异层富集表达,突出了空间定义表达的临床相关性。之后,开发了一个数据驱动的框架来定义空间转录组学数据中的非监督簇(unsupervised clusters一种机器学习),该簇可以应用于形态学结构不如皮质层状结构定义明确的其他组织或脑区域。最后为科学界创建了一个Web应用程序,以探索这些原始数据和总结数据,以加快目前的神经科学和空间转录组学研究(http://research.libd.org/spatialLIBD)。
We used the 10x Genomics Visium platform to define the spatial topography of gene expression in the six-layered human dorsolateral prefrontal cortex (DLPFC). We identified extensive layer-enriched expression signatures, and refined associations to previous laminar markers. We overlaid our laminar expression signatures onto large-scale single nuclei RNA sequencing data, enhancing spatial annotation of expression-driven clusters. By integrating neuropsychiatric disorder gene sets, we showed differential layer-enriched expression of genes associated with schizophrenia and autism spectrum disorder, highlighting the clinical relevance of spatially-defined expression. We then developed a data-driven framework to define unsupervised clusters in spatial transcriptomics data, which can be applied to other tissues or brain regions where morphological architecture is not as well-defined as cortical laminae. We lastly created a web application for the scientific community to explore these raw and summarized data to augment ongoing neuroscience and spatial transcriptomics research (http://research.libd.org/spatialLIBD).
INTRODUCTION
(1背景、2目前的方法及缺陷、3全基因组空间转录组学的优势)
背景:
从根本上,大脑的空间组织与其功能有关。这个结构-功能关系在人类大脑皮层的层状组织的背景下尤其明显,例如,位于不同皮层的细胞显示出不同的基因表达模式并表现出不同的形态、生理特性和连接特性(connectivity)。在一定程度上,结构决定功能,理解正常大脑发育和中枢神经系统疾病,需要鉴定组成大脑的细胞类型,和最终将各个细胞类别的功能相关性与结构体系联系起来。
目前的方法以及缺陷:
单细胞(scRNA-seq)和单核(snRNA-seq)测序技术的重大进展,极大地提高了对人脑分子定义细胞类型的识别,并暗示了特定大脑疾病风险的独特细胞类别。虽然scRNA-seq方法在啮齿类动物脑组织中很常见,但人类神经元相对较大且脆弱,再加上大多数可用的死后人类脑组织是冷冻的,这导致几乎所有可用的人脑数据都是用snRNA-seq方法在分离的核上生成的。虽然核谱通常代表整个细胞的谱,分离的细胞核缺乏细胞质室、轴突和近端树突,限制了对细胞质和神经网络基因表达的理解。这对大脑障碍的研究来说是个问题,因为汇聚的证据表明,在关键的皮质微回路中突触的形成或维持方面的障碍涉及许多神经精神疾病和神经发育障碍,包括精神分裂症(SCZD)和自闭症谱系障碍(ASD)。事实上,对患有这些疾病的人的死后大脑的研究不仅涉及特定的细胞类型,也揭示了特定皮层的神经元和突触结构的差异。此外,全基因组关联研究(GWAS)发现的与SCZD风险增加相关的基因优先富集于突触神经网络转录本,这表明snRNA-seq方法所遗漏的核外信息可能对理解脑疾病的遗传风险特别相关。而来源于sc / sn-RNAseq的分子资料数据可用于预测基于规范的解剖位置标记基因中描述的文学或策划数据集,精确分配基因表达个人完整的脑内细胞群的空间坐标后期人类大脑组织的细胞结构将大大促进我们理解人类大脑发育和疾病的研究。
我们最近建立并优化了在死后的人类脑组织中使用多路单分子荧光原位杂交(smFISH)的方法(Maynard et al., 2019)。然而,这些技术的多路复用是有限的,即使对于同时容纳数百到数千转录本的方法,细胞内的分子拥挤导致荧光重叠,这带来了显著的显微镜相关问题和计算挑战。人类大脑的相对大尺寸和脂褐素衍生的自身荧光给基于显微镜的空间转录切割方法在死后的人体组织带来了额外的挑战。虽然激光捕获显微解剖(LCM)等方法,但seq确实允许在一个空间确定的区域从细胞溶胶进行转录全谱分析,将组织从周围的空间环境中移除并单独处理,阻碍了分析基因表达梯度和检查完整切片中的空间关系的能力。
全基因组空间转录组学的优势:
全基因组空间转录组学的新兴技术为提供详细的分子图谱提供了巨大的潜力,从而克服了sn/scRNA-seq和基于显微镜的空间转录组方法的局限性。重要的是,这些技术使用了载片cDNA合成方法,捕获完整组织结构中的基因表达,这意味着细胞溶胶和神经元过程的信息被保留。为进一步理解人类大脑皮层空间组织上的的基因表达,我们使用了最新版本的10x Genomics Visium platform, 一种新型barcoding-based 全转录组空间转录组技术,生成six-layered背外侧前额叶皮层的基因表达(DLPFC)空间图谱。
由于与神经精神疾病相关的病理学和基因表达的一些差异局限于特定的皮层,在细胞分辨率下定位人脑空间基因表达的能力将对进一步了解疾病机制至关重要。为此,我们试图确定人类DLPFC基因表达的层流图,该脑区与许多神经精神疾病有关。我们覆盖了最近在人类brai中大规模snrna序列分析研究的数据。为了说明这种类型的数据在临床翻译中的潜力,我们将我们的数据集与各种神经精神疾病基因集集成,以证明ASD风险基因的优先层富集表达以及几种神经精神疾病的风险层富集关联。最后,我们比较了人工注释的层流簇与完全由数据驱动的空间簇在同一人类皮层组织中,使用的方法也可以应用于其他没有像大脑皮层那样清晰形态模式的人类组织和大脑区域。我们提供这些数据和分析工具作为一个重要的科学资源,为神经科学社区,以增加目前的分子图谱和空间转录组在人类大脑的努力。
1、实验方法
13个死亡的,神经正常的成年人脑,每个都在DLPFC位置取4个切片(两组,两组之间相距300微米,组内的两片紧挨着)每一片厚度10微米
取完样本之后,用visium方法建库测序,利用测序数据,将数据分层(大脑灰质的皮层分为6层,下面附带一些白质层,一共7层)
2、分层富集基因
测序完成之后,先做spot的分层,(分层方法:用传统的标志基因,判断spot属于哪个层,同时做t性降维,根据计算结果加入人为注释,把spot分配到各个层中
12个切片一共分配了76个层(8*7+4*5)
对76个层做主成分分析PCA(principal component analysis),(PCA的特点:在千变万化的数据中找到主要矛盾)可以得到分层的信息
对每个层中高表达的基因进行验证和分析,(这些是以往已知的标记基因)
由本次的visium数据,发现新的在特定层高表达的标记基因
评估之前的研究中确定的层高表达表基因是否合适(P-value.Rank percentile), visium技术可以把广域的空间和广谱的基因表达都进行分析,找出的基因就更具有代表性
Hafner基因集在分布上的特殊性(Hafner基因集:Hafner等人做的突触相关的基因集。
无监督unsupervised(PCA方法的前50个主成分做的聚类)、半监督semi-supervised(富集出来的差异表达基因作为指导,对spot做的聚类)、有监督markers(把以往做的标记基因作为监督条件来进行聚类)聚类分析
figure 1(A) DLPFC在垂直于软脑膜表面的解剖平面获得组织块,并延伸至灰质交界处。每个块横跨6个皮层和白质。
(B)实验设计简图,包括从三个独立的神经正常的成年供体中获得的两对“空间复制”。每对由两个直接相邻的10个微米系列组织切片组成,第二对位于第一对后300微米处,共12个样本在视觉平台上运行。
(C)标本151673 DLPFC组织块及相应组织学。
(D-F)显示样本151673中SNAP25 (D)、MOBP (E)和PCP4 (F)基因对数转化归一化表达(logcounts)的spot图。这些基因的表达通过描绘灰质/神经元(SNAP25)和白质/少突胶质细胞(MOBP)的边界并定义L5 (PCP4),确认了每个样本的空间方向。12个样品的SNAP25, MOBP, PCP4的spot图见图S1,图S2,图S3。
DLPFC中富层基因的表达(A)“pseudo-bulked”统计程序的可视化描述,该程序将每个组织切片中的空间转录组数据从点级(约4000个点)折叠为层级(6层+白质)数据。
(B)对所有切片(‘pseudo-bulked’)表达谱的主成分分析(PCA)。第一主成分分离白质和灰质,第二主成分与层相关联。以MOBP为例,对用于评估各层富集的三种统计模型的可视化描述,包括
(C)“方差分析”模型,测试七层方法是否不同
(D)“浓缩”模型,测试每一层是否不同于所有其他层- WM(橙色)和其他6所示层(浅蓝色)
(E)“成对”模型,哪些测试彼此每一层相对的另一层- WM所示(橙色)和L3(浅蓝色),其他层的灰色。
Visium复制了先前鉴定的层标记基因的层富集(A-D)
左:基因FABP7 (A, L1>rest, p =5.01e-19)、PVALB (B, L4>rest, p =1.74e-09)、CCK (C, L6>WM, p =4.48e19)、ENC1 (D, L2>WM, p =4.61e-25)的对数转化归一化表达(logcounts)箱式图。
中间:样本151673中基因FABP7 (A)、PVALB (B)、CCK (C)和ENC1 (D)的对数转化归一化表达(logcounts)的spot图。
右图:原位杂交(ISH)图像来自Allen人脑图谱的成年人大脑颞叶皮质(A, D)、DLPFC (B)或视觉皮质(C):http://human.brain-map.org/(Hawrylycz et al., 2012)。箱和点图可以使用我们的web应用程序进行重现:http://spatial.libd.org/spatialLIBD。艾伦脑图谱图像的标尺=1.6毫米
新层富集基因的发现和smFISH(单分子荧光原位杂交)验证(A-D)
左:基因AQP4 (A, L1>rest, p =1.47e-10)、TRABD2A (B,L5>rest, p =4.33e-12)、HPCAL1 (C, L2>rest, p =9.73e-11)、KRT17 (D,L6>rest, p =5.05e-12)的对数转化标准化表达(logcounts)箱式图。
右:样本151673中AQP4 (A)、TRABD2A (B)、HPCAL1 (C)、KRT17 (D)的对数转化归一化表达(logcounts)spot图。
(E)DLPFC皮层条带的多路单分子荧光原位杂交(smFISH)。描述DAPI(核)、AQP4、HPCAL1、TRABD2A、KRT17和脂褐素自身荧光表达的最大强度共聚焦投影。merge图像,无脂褐素自发荧光。【可能是因为脂褐素会自发荧光,所以要merge图像】
snRNA-seq数据的空间配准(registration )(A)空间配准方法概述。 皮尔森相关值的热图评估了我们导出的700个基因的层富集统计数据(y轴)与Hodge等人产生的人类颞叶皮层中snRNA-seq数据的
(B)层富集统计数据之间的关系。 (Hodge等人,2019)(这些数据仅描绘了灰质,x轴上的1-6层)和
(C)细胞类型的统计数据,这些数据由Mathys等人注释 。 来自人类前额叶皮层中的snRNA-seq数据(Mathys等人,2019)(x轴)。 Oli =少突胶质细胞,Ast =星形胶质细胞,Mic =小胶质细胞,Opc =少突胶质前体细胞,Per =周细胞,End =内皮,Ex =兴奋性神经元,In =抑制性神经元。
神经发育和神经精神病基因集的层富集。使用Fisher的精确检验对我们的层富集统计数据与一系列相关的预定义基因集进行了富集分析。
(A)SFARI(Abrahams等人,2013)和Satterstrom等人(Satterstrom等人,2020)的自闭症谱系障碍(ASD)层流富集了102个ASD基因(ASC102)。 根据Gandal等人在PsychENCODE(PE)中的报道,进一步将其分为53个主要为ASD(ASD53)和49个主要为发育迟缓(DDID49)的基因,以及ASD与神经性对照患者大脑中差异表达(DE)的基因 研究(Gandal等人,2018)。
(B)精神分裂症(SCZD)基因,包括来自差异表达(DE)和转录组范围关联研究(TWAS)的基因,这些基因来自大脑的RNA序列数据 与BrainSeq(BS)(Collado-Torres等人,2019)和PE(Gandal等人,2018)研究中的神经型对照相比,患有SCZD的个体与神经型对照相比。 “上”和“下”标签分别表示与神经型对照相比,患有ASD或SCZD的个体中基因的表达水平更高还是更低。 色标表示-log10(p值),其阈值设置为p= 10 -12。重要热图单元内的数字表示富集的比值比(OR)
DLPFC中数据驱动的层富集簇(A)基于细胞结构和选定的基因标记对DLPFC层进行监督注释(如图2 A所示),被用作``ground truth'' 以评估样本151673的数据驱动的聚类结果。
(B)图解说明数据驱动的聚类流水线的示意图,包括:
(i)以无偏见的方式识别基因(HVG或SVG),
(ii)对这些基因进行聚类分析(clustering/cluster analysis)
(iii)通过与ground truth比较来评估聚类性能。
(C)比较使用Spatial DE(对数似然比,LLR)和DE'富集'模型的基因(图S7)鉴定的SVG的基因方式测试统计数据(图S7)(F统计;包括WM) 对于样品151673。颜色表示选定的基因具有层状(红色阴影)和非层状(黄色阴影)表达模式。
(D)使用样本151673中的Spatial DE(与(C)中突出显示的基因相对应)识别的选定层状(上排)和非层状(下排)基因的表达模式。
(E)可视化聚类结果
(i)``无监督''聚类(方法为``HVG_PCA_spatial'',它使用来自scran的高度可变基因(HVG)(Lun等人,2016)),50个主要成分(PC)来降低维度 ,并包含空间坐标作为聚类的特征);
(ii)“半监督”聚类,这些聚类是通过使用DE富集模型确定的层富集基因进行指导的;
(iii)在Zeng等人的已知标记的指导下进行聚类。 (Zeng et al。,2012)(方法详细信息:数据驱动的富层聚类分析和表S10)。
(F)使用手动注释的ground truth layers(如(A)中所示)和adjusted Rand index(ARI),对所有12个样本中所有方法的聚类性能进行评估。 点代表每种方法和样品,结果按聚类方法进行分层(方法详细信息:数据驱动的富层聚类分析和表S10)。 使用适用于每种方法的线性模型(所有方法的总体模型:p = 5.8e-6),P值表示将两个空间坐标作为特征包含在聚类中时ARI得分差异的统计显着性。
网友评论