干货分享 | 如何解读非编码区变异？Nature|Science

作者: ee00dc6faab7 | 来源:发表于2021-09-10 09:42 被阅读0次

干货分享 | 如何解读非编码区变异？Nature|Science
真核生物基因结构图（外显子、内含子、mRNA、CDS区别）
基因的分子结构
发表在Nature和Science上的算法文章（整理中）
基因结构&mRNA结构
(史上最全)SNP位点与转录因子结合特异性数据库：GVATdb
基因结构
基因结构基础知识
2022-05-24如何快速从基因组中提取基因、转录本、蛋白、启
休谟《人性论》读后记

20世纪60年代末，非编码区由于不直接编码蛋白质，被认为是没有功能的“垃圾 DNA”。自人类基因组计划完成后，数千项的 GWAS 研究揭示了与特定性状或疾病相关的常见遗传变异93％都位于非编码区。由于非编码区基因具有连锁遗传、远距离作用的特点，很难找到它们的靶基因；且具有极强的动态性，很难知道它们在哪个组织中起作用；此外，了解其上游调节因子也是一个未解决的问题。这些都给探究非编码区变异位点的作用机制增加了难度[1]。

那么，在拿到 WGS 结果后，如何对非编码区的变异进行解读呢？我们来看一下Nature、Science、Nature Communications 等权威期刊中有哪些解决策略。

非编码区变异注释数据库

人类基因组计划完成之后，许多针对调控基因组的大规模研究逐渐开展，Nature、Scence 上发布了很多公开可用的数据库，有助于我们探索非编码区DNA的功能。主要有ENCODE、Roadmap、GTEx[2-4] 。此外，2021年Nature公布了EpiMap[5]，Nucleic Acids Research 上公布了 VARAdb[6]。

ENCODE

ENCODE，DNA 元素百科全书（http://www.encodeproject.org），致力于绘制人类与小鼠基因组功能性元件的综合图谱。涉及 RNA 转录、染色质结构和修饰、DNA 甲基化、染色质环以及转录因子和 RNA 结合蛋白等，共鉴定出了20,225个蛋白质编码基因和37,595个蛋白质非编码基因，注释了包括人类基因组中的90万个调控元件的注释信息。ENCODE 计划的第三阶段还开发了一个顺式调控元件相关注释信息表并构建了一个网站(SCREEN;http://screen.encodeproject.org)，意在揭开人类基因组功能元件的全面图谱。

GTEx

GTEx ，基因型和基因表达量关联数据库（https://gtexportal.org/home/)，于2010年9月发起，该数据集包括了838个捐赠者和17382个来自52个组织和两个细胞系的样本，同时进行了转录组测序和基因分型分析，构建了一个组织特异性的基因表达和调控的数据库。GTEx 数据库不仅仅是一个正常组织的基因表达量数据库，其 eQTL 分析的策略更值得我们借鉴。

EpiMap

EpiMap，表观遗传图谱（http://compbio.mit.edu/epimap）。EpiMap 整合了Encode、Roadmap、以及 GGR 注释图谱数据库的833个生物样品，涵盖了包括H3K4me1, H3K4me3, H3K27ac, H3K36me3, H3K9me3，H3K27me3 多种组蛋白修饰、Rad21、CTCF 等 Chip-seq 数据，体现 DNA 开放性的 Dnase-seq, ATAC-seq等18种表观遗传标记，绘制了表观遗传图谱。有了这张图谱，科学家将能够寻找引发疾病的变异位点，找到其作用的基因和机制，以此来研发药物和预防疾病发生。具体应用有（1）基于多个表观遗传修饰信号注释了染色质状态（chromatin states），同时结合DNA可及性注释增强子；（2）将增强子分为不同的模块（enhancer modules），并根据转录因子motif和GO富集结果推断每个模块的上游调控转录因子和下游远程调控基因；（3）整合增强子位置，增强子和基因的远程交互作用和 GWAS SNP 结果，预测 SNP 的靶基因和组织特异性；（4）将 GWAS 性状划分为“单因子”和“多因子”性状，揭示了它们与疾病的关系。

VARAdb

VARAdb，共编目了577,283,813种变异，并提供了包括“变异信息”、“调控信息”、“相关基因”、“染色质可及性”和“染色质相互作用”在内的5个注释部分（http://www.licpathway.net/VARAdb/）。这些信息包括基序变化、风险 SNPs、LD SNPs、eQTLs、临床变异药物-基因对、序列保守、体细胞突变、增强子、超级增强子、启动子、TFs、ChromHMM 状态、组蛋白修饰、ATAC 可达区域和来自 Hi-C 和 ChIA-PET 的染色质相互作用。此外，VARAdb 可以根据评分对变体进行优先排序，对新变体进行注释，并方便地进行路径下游分析。

非编码区变异致病性预测软件

了解非编码区变异的功能，除了通过数据库进行注释外，评估其遗传变异的致病性是非常重要的。其中非编码区变异致病性排序的工具主要有 CADD、Deepsea 和 GWAVA[7]。此外，2021年，Nature Communication 上发表了新的非编码区致病性预测工具 gwRVIS[8]，该软件旨在促进对非编码人类基因组中的区域进行优先排序，这些区域在发生突变时更有可能与临床相关效果相关。此外，文中对常用致病性排序工具进行了对比，发现 gwRVIS 在非编码区不同功能区内：lncRNA、intergenic region、UTRs、UCNEs和VISTA enhancer致病变异预测能力表现良好。且在 GWAS-catalog 和 Mendelian 验证中有很好的效果。

深度学习算法应用

由于基因组学研究在本质上对序列局部依赖性和长程相关性等特征及其大规模和深层次的数据特性很好地契合了神经网络算法（CNN）的工作逻辑，近年来飞速发展的深度学习技术成为了非编码区突变功能性研究的一项利器。目前基于 CNN框架进行非编码区变异优先级排序的工具有 DeepBind、DeepSEA、Basset、DanQ、Basenji 等。2019年，研究者例用 DeepSEA 模型构建了分类器，获得每个在自闭症患者群体中观察到的突变的疾病相关性分数。通过对自闭症患者与对应同胞进行比较，研究人员发现前者所具有的突变对应的疾病相关性分数显著高于后者，这表明通过 DNA 突变对基因调控因子的扰动能力来预测其疾病相关性是有效的[9]。2020年，DeepFun 模型在现有 CNN 模型基础上，整合了来自 ENCODE和 Roadmap 的数据，呈现了密集的人类-人类表观基因组图谱。模型的不断升级，有助于非编码区变异致病性的预测的准确性提升[10]。

针对人类基因组非编码区的注释数据库和变异致病性预测排序软件较多，可根据不同软件的特性和功能，进行选择使用。此外，随着多组学技术的蓬勃发展，多种组学联合分析，如将基因组与转录组测序、启动子甲基化测序、表观遗传修饰测序、转录因子/RNA结合蛋白结合位点测序等大规模数据进行联合分析，可多角度解释和预测相关基因的功能、剖析机体中复杂的遗传因素与机体表型的关联及其具体作用机制。

参考文献

[1] Gallagher MD, Chen-Plotkin AS. The Post-GWAS Era: From Association to Function. American Journal of Human Genetics,2018,102(5):717-730.

[2]E. A. Feingold, P. J. Good, M. S. Guyer,et al.ENCODE Project Consortium. The ENCODE (ENCyclopedia Of DNA Elements) project[J]. Science,2003,306(5696), 636–640.

[3] Kundaje A, Meuleman W et al. Integrative analysis of 111 reference human epigenomes[J]. Nature,2015, 518(7539), 317–330.

[4] Ardlie KG, Deluca DS, Segrè AV et al. The Genotype-Tissue Expression (GTEx) pilot analysis: multitissue gene regulation in humans[J].Science, 2015,348(6235), 648–660.

[5]Boix CA, James BT, Park YP, et al. Regulatory genomic circuitry of human disease loci by integrative epigenomics[J]. Nature. 2021,590(7845):300-307.

[6] Pan Q, Liu YJ, Bai XF, Han XL,et al. VARAdb: a comprehensive variation annotation database for human[J]. Nucleic Acids Research. 2021,49(D1):D1431-D1444.

[7] Zhang W, Zhang H, Yang H,et al. Computational resources associating diseases with genotypes, phenotypes and exposures[J]. Briefing in Bioinformatics. 2019 ,20(6):2098-2115.

[8] Vitsios D, Dhindsa RS, Middleton L, et al. Prioritizing non-coding regions based on human genomic constraint and sequence context with deep learning[J]. Nature Communations. 2021,12(1):1504.

[9] Zhou J, Park CY, Theesfeld CL, et al. Whole-genome deep-learning analysis identifies contribution of noncoding mutations to autism risk[J]. Nature Genetics. 2019,51(6):973-980.

[10] Eraslan G , Ž Avsec, Gagneur J , et al. Deep learning: new computational modelling techniques for genomics[J]. Nature Reviews Genetics, 2019，20(7):389-403.

干货分享 | 如何解读非编码区变异？Nature|Science
20世纪60年代末，非编码区由于不直接编码蛋白质，被认为是没有功能的“垃圾 DNA”。自人类基因组计划完成后，数千...
真核生物基因结构图（外显子、内含子、mRNA、CDS区别）
1. 基因DNA分为编码区和非编码区，编码区包含外显子和内含子，一般非编码区具有基因表达的调控功能，如启动子在非编...
基因的分子结构
人类结构基因4个区域：①编码区，包括外显子与内含子；②前导区，位于编码区上游，相当于RNA5’末端非编码区（非翻译...
发表在Nature和Science上的算法文章（整理中）
有一些算法发表在Nature和Science上，值得整理和讨论。比如著名的非负矩阵分解算法： Learning ...
基因结构&mRNA结构
真核生物的基因结构包括编码区和非编码区。编码区编码区其实是断裂基因结构，也就是不连续基因。具有蛋白编码功能的不...
(史上最全)SNP位点与转录因子结合特异性数据库：GVATdb
众所周知，全基因组关联分析（GWAS）发现的很多变异位点基本为非编码，这些变异位点1）要么调控基因表达（eQTL）...
基因结构
基因结构包括编码区（CDS）和非编码区编码区：不连续的基因结构，包含外显子和内含子，它们交替出现。CDS序列以A...
基因结构基础知识
刘小泽写于19.4.12主要研究真核生物 DNA => pre-mRNA 基因结构包括编码区（CDS）和非编码区 ...
2022-05-24如何快速从基因组中提取基因、转录本、蛋白、启
NGS基础 - GTF/GFF文件格式解读和转换这篇文章有读者留言想要提取外显子，内含子，启动子，基因体，非编码区...
休谟《人性论》读后记
去年收看耶鲁大学公开课《Philosophy and the Science of Human Nature》，教...