美文网首页rna_seq
生信分析 这个CNV分析内容着实有点多

生信分析 这个CNV分析内容着实有点多

作者: 概普生信 | 来源:发表于2021-01-29 09:42 被阅读0次

    投稿期刊情况

    <Theranostics> ISSN: 1838-7640;

    2018_IF = 8.063; 2019_IF = 8.579;

    中科大类: 医学 1区;

    中科小类: 医学:研究与实验 1区;

    JCR分区: Q1

    最近文章真的越来越难写。主编要求小编们,发挥特长,写出特色,否则就扣工资😭……可这科研类文章,可怎么玩弄我的十八般武艺哦,头发都抓掉了!今天我们来看看CNV,如果各位科研小伙伴觉得这个文章结构确实有改进,文末点个赞,这样我就有个方向下次继续保持这个风格,当然希望浏览人数和点赞人数一致了,一键三连走起。

    先补课

    这个CNV的发现确实很早了,很难想象,在1998年已经文献报道CNV被认为是Genomic disorders[1], 后来随着array based comparative genomic hybridization技术兴起,CNV的研究也逐步的揭开面纱。目前已有几个数据库用来收集 CNVs 信息:健康人群 CNV 可到 Genomic Variants (www.projects.tcag.ca/variation)查询;神经发育异常的患者 CNVs 可到 DECIPHER(www.sanger. ac.uk/PostGenomic/decipher/) 查询;染色体异常的患者 CNVs 数据库 www.ukcad.org.uk/cocoon/ukcad、www.isca.genetics.emory.edu/;染色体非平衡变异的患者 CNVs 可到 www.ecaruca. net 查询。

    CNV的形成机制和增强子的效应就不必重复了,网上很多相关的资料和相关分析流程。CNV在正常人群众依然存在,但是对于疾病的影响,确实不可小视。

    引正文:

    简明扼要,文章meta分析了胶质瘤的CNV,基因表达和转录因子TF,发现增强子的CNV结构,并且这个结构促进了胶质瘤的恶性发展。

    啊呀,这个就很精彩了。所以当你读完文章,你就大致能收获以下几点:

    1. 怎么做的这个研究

    2. 到底发生了什么调控

    3. 具体生信分析涉及什么

    4.这个idea是否值得深入探索

    布局研究:

    前期基础研究报道,脑肿瘤中的神经胶质瘤发展受到基因表达的影响,换句话说,增强子的long-range这种结构很可能是该病发的一种机制。此外,基因的转录活性是增强子通过与转录因子(TFs)结合的其他顺式作用调控元件的相互作用来调控的。因此这个转录因子对于增强子的激活是发挥关键作用的。因此对于整个的基因调控网络,使用meta分析可以有更全面的认识。

     

    胶质瘤CNV -- 级别胶质瘤(low-grade glioma,LGG)和多形性胶质母细胞瘤(glioblastoma

    Multiforme,GBM)数据从TCGA获取。其中II级患者258例,III级患者271例,IV级患者154例。

    胶质瘤RNA-seq-- 胶质瘤(LGG和GBM)患者的基因表达数据也从TCGA获取。在II级、III级和IV级胶质瘤中,分别获得了224、233和146个具有CNV和表达数据的样本,另外还有5个正常样本。

    增强子 -- FANTOM5data portal可获取65,423个人类增强子。CAGE-Seq检测增强子活性,这个活性的度量呢,以TPM为单位。图1A所示,即为去除脑组织样本中不表达的增强子。另外这个增强子区域,规定在内含子或基因间区域内,而不是启动子(TSS±2 kb)或外显子区域,所以这形成一个内含子和基因间增强子子集。最后,在脑组织中鉴定出27165个增强子。

    使用GISTIC识别复发性脑胶质瘤的CNV区域,在胶质瘤进展过程中,CNV扩增和删除区域都被识别出来。因为这个CNV的增加或删除势必会影响增强子的活性,bedtools可以识别相关的peak regions,来监测CNV的状态。但这个还是需要验证是否影响,所以CCLE癌细胞系数据库被用来获取细胞系的CNV,用GISTIC鉴别复发性细胞系中的CNV区域,接着用bedtools检测CNV改变。

     

    调控 -- 识别增强子的靶基因对于了解其在癌症中的功能至关重要。接下来,文章通过分析增强子与编码蛋白基因之间的距离和表达情况来预测增强子的潜在靶基因。bedtools确定了距离增强子1 kb到10 Mb内距离最近的编码蛋白基因。T-test 评估带有和不带有增强子的胶质瘤患者基因表达差异。FDR< 0.05的基因被鉴定为增强子的潜在靶基因。另外考虑增强子扩增和缺失导致的基因高表达和低表达的现象评估调控机制。

    TF-增强子-靶基因 -- 为了预测增强子上的TF结合位点,利用UCSC Table Browser获取序列,TRANSFAC Professional筛选TF结合位点。接着需要确认CNV改变的增强子TF富集motif,p < 0.005的TF motif被鉴定为富集motif。

    综上,至此完成了TF-增强子-靶基因的整合,而TF和靶基因的表达相关性用Spearman correlation coefficient (SCC)衡量。三者共表达在|SCC|>0.3和FDR<0.01会保留下来。T-test 对肿瘤和正常组织中有差异表达的TFs和靶基因进行鉴定,当TF和靶基因的FDR<0.1或变化1.2倍则被认为是差异表达。Cytoscape 3.6.1用来表述TF和基因所组成的基因调控网络。

     

    功能富集 -- GO和KEGG,并且累计超几何分布用来进行统计

    生存分析 -- 所有的神经胶质瘤患者被分训练集和测试集。Cox hazard analysis确定与生存相关的基因,风险评分的计算是根据训练集中p < 0.05的基因确定的:

     

    n是Cox回归分析中确定的基因的数量。βk是基因的回归系数k,Gkik是在病人中基因k的表达。基于风险的平均分数,病人训练集被分为低风险和高风险组。对测试集做同样的处理。低危和高危患者的生存情况用Log-rank检验。

    此外文章还有相关实验部分介绍,这里就不展开说了,感兴趣的可以看一下原文。前期数据收集和计算统计后,文章结果部分也就呈现出来:

     

    首先,确定了胶质瘤进程中存在广泛的增强子DNA 拷贝数变异 

     图1,胶质瘤进程中存在广泛的增强子CNAs结构

     

    如图1A pipeline表示了如何获取CNV-driven enhancers,在65423个人类增强子中,重点关注了27165个活性增强子。为了鉴定与CNAs相关的增强子, 利用脑组织中CNAs相关的峰区和活性增强子的重叠,在II级、III级和IV级胶质瘤患者中分别鉴定出933、1230和140个增强子在26、32和46有扩增峰,658、1066和30个增强子在25、22和22有缺失峰的 (图1B)。此外,图1C所示,II级和III级之间共享更多的CNA-driven增强子,IV级则有特异性增强子。图1D中,还发现了所有等级中共有的18个增强子,其中6个扩增型增强子,7个缺失型增强子。这些结果显示了在胶质瘤进展过程中增强子改变的总体情况,并提示了广泛存在的增强子CNAs。

     

    神经胶质瘤发展过程中基因组的不稳定性与增强子的关系通过TCGA、LGG和GBM队列中从RNA-Seq检索到的增强子表达数据验证。研究发现,位于CNV扩增区域的增强子(enhancer RNAs, eRNAs)表达上调(图1E)。相反,位于CNV缺失区域的增强子在胶质瘤中表现出表达下调的趋势。在胶质瘤恶性进展期间观察到,扩增增强子的表达差异更大。所有这些结果表明,在胶质瘤进展过程中,CNAs与增强子激活有关。

     

    第二,增强子的CNAs干扰肿瘤相关靶基因的表达

     图2,增强子的CNAs调节癌症相关基因

     

    为了研究增强子在癌症发展和进展中的潜在功能,识别其下游靶基因是至关重要的。通过整合基因组位置和表达谱,分两步预测了增强子的潜在候选靶基因(图2A)。在增强子扩增的患者中鉴定出170个表达更高的基因,这些基因参与了678个与增强子的相互作用(图2B),而缺失的增强子的相互作用主要发生在6号染色体和10号染色体。而图2C则在不同级别的患者中重复上一研究,发现这些增强子调节了许多与癌症相关的基因,如ARID1B,EGFR、MDM2、PRGFRA和MYC。为了研究增强子调控基因的功能,进行了功能富集分析。并且发现这些基因在P53通路、紫外线反应、血管生成和蛋白质分泌中显著富集(图2D)。这些结果表明,由增强子调控的基因可能与癌症有关。那么这些基因在多大程度上被验证为与癌症相关呢?由图2E可以看出,计算肿瘤基因在扩增或删除的增强子调控基因中的比例发现,参照Cancer Gene Census,扩增增强子调节了大约15%基因。随机选择与增强子调控基因相同数量的基因,重新计算癌症相关基因的比例。这个过程重复了一遍10000次。发现由增强子调控的基因更有可能与癌症相关(图2E, p < 0.05)。所以,增强子的CNAs干扰了癌症相关基因的表达。

     

    第三,增强子和CNAs协同调控靶基因的表达

     图3,CNAs和增强子协同调控基因的表达

     

    这里计算了每个靶基因的增强子的数量,发现约62.4%的靶基因与两个或两个以上的增强子相关(图3A)。通过图3B我们可以看出,被扩增增强子调控的基因表达量高于未被增强子调控的基因表达量,受两种以上扩增增强子调控的基因在胶质瘤患者中表达显著增加。相比之下的图3C被缺失增强子调控的基因表达量明显较低,特别是被两个以上缺失增强子调控的基因。那么在图3D中提出的6种特定增强子-基因调控的调控模型可以发现,增强子和基因的CNA可能协同调控靶基因的表达。为了验证这一假说,利用上文中提到的患者分类,图3E可以很好的看出,基因在增强子和基因扩增的患者中表达明显高于仅增强子或仅基因扩增的患者,反之亦然。因此增强子和基因的CNAs确实存在协同调控靶基因的表达情况。

    第四,增强子-TFs-靶基因在胶质瘤中的扰动

     图4,神经胶质瘤中的TF-增强子-靶基因调控回路

    由于活性增强子需要结合TFs来调控下游基因表达,那么根据图4A表述出增强子-TFs-靶基因三者组合。基于扩增的增强子序列,我们发现MAFK、POU2F1、HOXD13和FOXA2显著富集,对于缺失的增强子,我们鉴定了4个显著与增强子序列结合的TFs(图4C),包括CTCF、ESX1、RELA和TCF3。

     图5,神经胶质瘤中的TF-基因调控网络

    通过整合TF-基因的调控,作者在胶质瘤中构建了两个调控网络,如图5A-B所示。发现许多癌基因在活性增加的网络中,而肿瘤抑制基因在活性降低的网络中更常见。

    第五,核心TF-基因调节模块与胶质瘤预后相关

     图6,核心TF-基因模块与胶质瘤患者的生存相关

     

    以上例子表明,整合TF-基因调控网络有助于识别胶质瘤的预后生物标志物。因此,下一步的目标是确定与胶质瘤预后相关的核心TF-靶基因调节模块。通过整合TFs和具有更高连接性的基因,我们发现了包括8个基因和18个TFs在内的58个相互作用,从而涉及到enhancer-TF-target网络中的143个enhancer-TF-target三联体(图6A)。同样可以看到enhancer-deleted网络中的7个基因和58个相互作用,涉及了203个enhancer–TF–target 三联体。四个TFs (TCF3, HOXD10, HOXD13, and NKX2-5)在两个网络中被识别。功能富集分析表明,这些基因主要参与分化和增殖相关功能(图6B)。

    之前提到文章把患者分为训练组和测试组,这里基于Cox ratio,图6C发现训练集中有38个基因与患者生存相关。这些基因在训练和测试集的患者中表现出动态表达,通过整合这些基因的表达计算每个患者的风险评分。根据训练集的风险评分中位数,我们将患者分为低危组和高危组。我们发现高危组患者在训练集和测试集的生存期都较差(图6D-E,log-rank p < 2.2e-16)。因此这表明,风险评分可作为神经胶质瘤预后的一个指标。通过拟合多变量Cox比例风险模型进行调整比较,调整患者生存的潜在混杂因素,如年龄、级别、性别和IDH突变。发现综合风险评分是脑胶质瘤患者生存的独立预测因子(图6F,Hazard ratio= 3.51,p < 0.001)。

    第六,在独立队列中验证核心调控模块

     图7,核心TF基因调控模块在CGGA队列中的验证

    这个核心调控模块作者选择了一个中国胶质瘤队列,是从 CGGA上获取的325个中国胶质瘤患者的表达谱数据。在图7A中可以看到,患者之间有很大的差异。根据TCGA数据训练的相同模型,依然将患者分为低危组和高危组。发现低危组和高危组患者的生存有显著差异(图7B, log-rank p = 4.9E-15)。此外进行了多变量Cox比例风险模型,调整了年龄、年级、性别和IDH突变。发现综合风险评分是生存的独立预测因子(图7C,Hazard ratio = 1.61,p < 0.01)。总之,所有这些结果表明,在癌症中,以增强因子为中心的TF基因调控模型是由CNAs驱动的。核心调控模块的表达与胶质瘤患者的生存相关。

    第七,增强子靶基因促进胶质瘤细胞增殖和迁移

     图8,靶基因在胶质瘤中促进细胞增殖和迁移

    这个部分是我前面省去实验材料的部分,所以有兴趣的可以看下原文的实验准备。在图7D中发现HOX基因编码的TFs经常出现在胶质瘤中,这些TFs调控关键基因(如MAML2、CDK6、FAM84B和PTBP1)。因此,作者探索了增强子靶基因在胶质瘤细胞系中的功能。与正常组织相比,发现MAML2、FAM84B和CDK6在胶质瘤中表现出较高的表达(图8A)。接下来,利用siRNA技术敲除U251细胞系中的这些靶基因,并检测其表达情况。我们发现siRNA显著降低了靶基因的表达(图8B)。此外,敲除靶基因(MAML2、FAM84B和CDK6)显著抑制了胶质瘤细胞的增殖(图8C, p < 0.001)。使用Transwell分析来探讨沉默增强子靶基因后是否影响细胞迁移。与对照组相比,靶基因敲除显著降低了细胞迁移(图8D, p < 0.001)。所以这确实说明,增强子靶基因显著促进了胶质瘤细胞的增殖和迁移。

    精彩回顾:

    还记得我前面说看完这个文章你就会掌握的四点吗?我带大家继续梳理一下:

    1. 怎么做这个研究,换句话就是这个研究做了什么。这确实是很不错的文章,思路特别清晰,CNV可能诱发疾病,增强子调控基因表达,那么增强子的CNV是否存在变化,怎么变化,怎么调控上下游,继而发现enhancer–TF–target 三联体,根据基因表达风险评分评估三联体对患者生存的影响。然后外部数据验证加实验验证。

    2. 到底发生什么调控,胶质瘤发展过程中,增强子CNV发生扩增或缺失影响靶基因的表达,同时以增强子为中心的TF调控模块影响患者的生存。

    3. 具体生信分析涉及什么,首先从各个数据库获取CNV信息,患者信息和表达谱信息的数据预处理,其次采用统计模型量化,最终差异分析和富集分析展示结果。

    4. 这个idea可不可以参考。结合目前我钻研过的文章,TCGA_CCLE_GDSC_CGGA组合出来的文章,都是漂亮的分析,感兴趣的可以仔细阅读。

    这个文章真的太长了,好累哦,我们下次见,喜欢这个风格的,一键三连!

    参考文献:

    [1] Lupski JR. Genomic disorders: structural features of the genome can lead to DNA rearrangements and human disease traits. Trends Genet. 1998 Oct;14(10):417-22. doi: 10.1016/s0168-9525(98)01555-8. PMID: 9820031.

    更多精彩文章可关注我们原网站 https://biosxr.gaptools.cn/pc  生信人

    全套生信分析可填写意向表单 http://gaptechsxr.mikecrm.com/1vdMmqy  生信分析意向表

    相关文章

      网友评论

        本文标题:生信分析 这个CNV分析内容着实有点多

        本文链接:https://www.haomeiwen.com/subject/dizftltx.html