Burden 分析,是基于基因的关联分析方法中的一种,应该与基于位点的关联分析(GWAS),起到相辅相成,互相补充的作用。
传统GWAS分析,主要是利用大样本量,寻找病例对照组中常见变异(MAF>1%)的差异来解释复杂疾病,忽略了罕见变异(MAF<1%)的作用与信息(与以前的技术有段也有关系,以前更多是芯片技术,在样本量不是足够大的时候难以挖掘罕见变异)。而罕见变异,被认为能考虑到不同位点的共同作用,解释一部分疾病的遗传关系,发生机制[1] ,并且已有不少报道证明,对于发掘疾病的致病基因有种重要作用,在分析时并不应该被遗漏[2][3][4] 。同时,受益于高通量测序的发展,大家能对大量样本进行全基因组或者全外显子组直接测序,更好的挖掘罕见变异位点信息,因而推动了基于罕见变异位点的关联分析。
罕见变异位点关联分析(rare variant association studies, RVASs),包括类似传统GWAS的基于罕见变异位点的关联分析,与基于区域为单位的关联分析(常见以基因为单位,集合区域内的罕见突变)。基于区域/基因的关联分析一般可以被主要分为三类:1)Burden analysis(可以理解为检验疾病对罕见变异位点的容忍度,characterizing the disease burden of rare variants);2) Variance-component analysis;3)hybrid(结合前两种方法)[5][6]。
Burden analysis 简单的说就是比较两组表型差异的样本,在同一个区域/基因上,携带的罕见变异的“总数”(可以有矫正和加权,比如adaptive burden test,由于突变的低频有害特质,一个样本在一个基因上含有多个突变的概率很低[7],所以才能使用加和的方法)是不是有显著差异,常见的以这种思路分析的方法有,CAST (Cohort Allelic Sums Test)[8], CMC (Combined Multivariate and Collapsing )[7], VT (Variable-threshold approach)[9]等, 或者直接使用Fisher检验对数量进行检验[4][10][11]。Burden分析的主要假设是罕见变异对表型有影响,并且一个区域/基因上的突变的影响方式都是一致的,比如都是有害的或者都是保护的。Burden分析的优势是在假设正确且罕见变异中有较大比例的causal突变时非常有效,限制则是如果一个基因上,既有危害因素,又有保护因素,则这种方法就不太适用。而Variance-component analysis则考虑了上述影响方式的限制,利用了协方差矫正,基于这种思想使用较广的方法为SKAT[12],但是SKAT的限制则是更适用于一罕见变异中仅有小部分causal突变,且同时存在两类不同影响方式的突变时,否则效能不如Burden。最后,同时考虑上述两种思想的则是SKAT-O[5][6][13]。
基于基因/区域的分析能通过集合一个区域/基因的位点来提升统计检验效能,一般情况下仍然需要上千的样本量(相比于传统GWAS需求减少很多),但也可以根据疾病的发病率,选择的样本量大小,比如研究罕见病的时候,虽然由于收样限制能获取的样本不大,但是受益于罕见的发病率,在较小的样本量的时候也可能得到好的结果。目前看到较好的主要应用到Burden分析思路研究的文章,最少使用了发病率小于1/100 000的78个家族性肺纤维化的患者,Burden分析发现了PARN与RTEL1两个基因[4],另外有一篇研究更加罕见的,无鼻畸形(上个世纪总共有80例患者)的文章,在文中也利用到了Burden分析的手段,对22个case进行了基于基因的关联,检验的结果与之前确定的候选基因一致,均为SMCHD1[10]。
可以提升基因/区域关联分析的统计检验效能的方法,与传统GWAS分析方法基本一致,这里不再详细说明,主要包括1)选择极端表型的样本;2)选择相对孤立的人种/人群[冰岛人系列];3)分析前进行数据填补(主要是芯片数据,低深度数据)。
由于SKAT, SKATO 在使用时,都需要配套的Case, Control的VCF,且需要每个样本的基因型信息,但是利用Fisher检验的Burden则可以使用任意的Control数据来源,只要能统计得到基因上的变异位点数量,并不需要每个样本的genotype。这样的情况下,不管是in-house数据库,还是公开的数据库,我们都能很好的利用数据,所以从目前能获得的公开数据的情况上看(没有每个样本的genotype),Burden分析的思路,才能在仅有Case的情况下,使用公开的数据库作为Control,进行基因/集合的罕见变异位点关联分析,比如使用ExAC为对照[10][11]。
总结:
1,基于基因的关联,使用什么分析方法,主要考虑表型的影响,不清楚的时候可以多种方法(根据经验差别不大)。
2,使用公共数据库,没有每个样本的genotype信息时,只能用Burden;Control有genotype的时候,还可以使用SKATO。
[1] Manolio TA, Collins FS, Cox NJ, Goldstein DB, Hindorff LA, Hunter DJ, et al. Finding the missing heritability of complex diseases. Nature. 2009;461:747–53.
[2] Flannick J, Thorleifsson G, Beer NL, Jacobs SB, Grarup N, Burtt NP, et al. Loss-of- function mutations in SLC30A8 protect against type 2 diabetes. Nat Genet. 2014;46:357–63.
[3] Do, R., Stitziel, N. O., Won, H.-H., Jørgensen, A. B., Duga, S., Merlini, P. A., et al. (2014). Exome sequencing identifies rare LDLR and APOA5 alleles conferring risk for myocardial infarction. Nature, 518(7537), 102–106. http://doi.org/10.1038/nature13917
[4] Stuart, B. D., Choi, J., Zaidi, S., Xing, C., Holohan, B., Chen, R., et al. (2015). Exome sequencing links mutations in PARN and RTEL1 with familial pulmonary fibrosis and telomere shortening. Nature Genetics, 47(5), 512–517. http://doi.org/10.1038/ng.3278
[5] Auer, P. L. (2015). Rare variant association studies: considerations, challenges and opportunities. Genome Medicine, 7(1), 1–11. http://doi.org/10.1186/s13073-015-0138-2]
[6] Hoffmann, T. J., & Witte, J. S. (2015). Strategies for Imputing and Analyzing Rare Variants in Association Studies. Trends in Genetics, 31(10), 556–563. http://doi.org/10.1016/j.tig.2015.07.006
[7] Li, B., & Leal, S. M. (2008). Methods for Detecting Associations with Rare Variants for Common Diseases: Application to Analysis of Sequence Data. The American Journal of Human Genetics, 83(3), 311–321. http://doi.org/10.1016/j.ajhg.2008.06.024
[8] Morgenthaler, S., & Thilly, W. G. (2007). A strategy to discover genes that carry multi-allelic or mono-allelic risk for common diseases: A cohort allelic sums test (CAST). Mutation Research/Fundamental and Molecular Mechanisms of Mutagenesis, 615(1-2), 28–56. http://doi.org/10.1016/j.mrfmmm.2006.09.003
[9] Price, A. L., Kryukov, G. V., de Bakker, P. I. W., Purcell, S. M., Staples, J., Wei, L.-J., & Sunyaev, S. R. (2010). Pooled Association Tests for Rare Variants in Exon-Resequencing Studies. The American Journal of Human Genetics, 86(6), 832–838. http://doi.org/10.1016/j.ajhg.2010.04.005
[10] Shaw, N. D., Brand, H., Kupchinsky, Z. A., Bengani, H., Plummer, L., Jones, T. I., et al. (2017). SMCHD1 mutations associated with a rare muscular dystrophy can also cause isolated arhinia and Bosma arhinia microphthalmia syndrome. Nature Genetics, 49(2), 238–248. http://doi.org/10.1038/ng.3743
[11] Ware, J. S., Li, J., Mazaika, E., Yasso, C. M., DeSouza, T., Cappola, T. P., et al. (2016). Shared Genetic Predisposition in Peripartum and Dilated Cardiomyopathies. The New England Journal of Medicine, 374(3), 233–241. http://doi.org/10.1056/NEJMoa1505517
[12] Wu, M. C., Lee, S., Cai, T., Li, Y., Boehnke, M., & Lin, X. (2011). Rare-Variant Association Testing for Sequencing Data with the Sequence Kernel Association Test. The American Journal of Human Genetics, 89(1), 82–93. http://doi.org/10.1016/j.ajhg.2011.05.029
[13] Lee, S., Emond, M. J., Bamshad, M. J., Barnes, K. C., Rieder, M. J., Nickerson, D. A., et al. (2012). Optimal Unified Approach for Rare-Variant Association Testing with Application to Small-Sample Case-Control Whole-Exome Sequencing Studies. The American Journal of Human Genetics, 91(2), 224–237. http://doi.org/10.1016/j.ajhg.2012.06.007
网友评论