全基因组关联分析(Genome wide association study,GWAS)是一种挖掘调控某一性状基因最常用的方法。GWAS常用的模型为混合线性模型(MLM),该模型在一般线性模型中加入了群体结构和亲缘关系,可以很好的控制GWAS结果的假阳性。但这两个变量与标记之间的混杂降低了模型对关联位点的检测效力,造成了一定程度的假阴性。为了解决这个问题,华中农业大学的刘小磊博士开发了一个新的模型"FarmCPU"(Fixed and random model Circulating Probability Unification),大家可以通过R包“GAPIT” 和“FarmCPU"使用(http://www.zzlab.net/software/index.html)。
发表该模型的文章已经被引用174次。
大部分的软件在完成GWAS关联分析后都会输出每个标记的表型变异贡献(Phenotypic variation explained,PVE),但是FarmCPU的结果只会输出一个“effect”,那么这个“effect”代表什么呢?
首先,如果一个SNP标记对表型有影响的话,我们可以得到一个简单的方程:
表型值 = 表型平均值 + e*SNP
假设我们有一个位点的碱基由“A” 突变为 “T” ,那么这个位点一共会有三种基因型 “AA”、“AT” 和 “TT”,一般我们用“0”、“1”和 “2” 来表示这三种基因型。
已知某一小麦群体的穗长表型受该位点影响,该位点”effect“ 为0.3,穗长的平均值为10cm,那么我们认为:
基因型为“AA” 的个体穗长应为:10 + 0.3*0 = 10
基因型为“AT” 的个体穗长应为:10 + 0.3*1 = 10.3
基因型为“TT”的个体穗长应为:10 + 0.3*2 = 10.6
该位点的碱基由 “A” 突变为 “T” 后会使小麦穗长增加。
以上内容是小编根据GAPIT和FarmCPU的使用文档及网上一些资料得出的理解,如有不对,欢迎大家批评指正!
参考资料:
Liu X, Huang M, Fan B, et al. Iterative usage of fixed and random effect models for powerful and efficient genome-wide association studies[J]. PLoS genetics, 2016, 12(2): e1005767.
刘小磊. 一种交替运用固定效应和随机效应模型优化全基因组关联分析的算法开发[D].华中农业大学,2016.
https://www.biostars.org/p/346421/
http://www.zzlab.net/GAPIT/gapit_help_document.pdf
http://www.zzlab.net/FarmCPU/FarmCPU_help_document.pdf
欢迎关注微信公众号“生信小王子”,里面干货更多~
网友评论