全基因组关联分析在全基因组层面上,开展多中心、大样本、用于阐述DNA突变(SNP,CNV)与外在表型的关联,在医学方面主要是寻找与复杂疾病相关的遗传因素。但是某些外在高阶表型,比如像水果的风味鉴定,定性定量难度大,给大样本的表型鉴定的时候带来困难。实际上从DNA分子到影响外在表型之间,要经历表观组、转录组、蛋白组、代谢组等多个中间途径。在传统GWAS的基础上,加入中间分子表型,将可以解决高阶性状定性定量难度大的问题。例如mRNA表达量为中间分子表型产生的eQTL,有时候可以帮助我们解析一些看似难以解释的非编码区调控现象。
例如,在人类的GWAS研究中,位于基因CELSR2 的3’UTR区的若干个SNP与血清低密度胆固醇(LDL-C)相关,是与心肌梗死(MI)相关的风险位点。
如果按照一般的逻辑理解,我们或许会以为是3’UTR区的突变,影响了miRNA的调控,从而影响CELSR2的翻译,最终导致疾病。但通过eQTL分析以及后续的多群体重复验证,研究人员发现表达量与这个区域的突变最相关的基因不是CELSR2,而是位于区域下游40k的SORT1。
虽然最显著相关的SNP rs12740374位于基因CELSR2内,但为何表达最相关的基因却是sort1?
大家可以看一下k562细胞系snp374 virtual 4C的结果,snp374在sort1有一明显的峰,说明sort1是snp374的靶基因并且chiapet可以进一步证实。那么我们可以提出如下的假设.....
虽然最显著相关的SNP rs12740374看似位于基因CELSR2内,但是这个位点的突变直接导致了它与转录因子的结合能力,从而使之前的调控关系发生了变化,从而导致了sort1的表达变化。
网友评论