GWAS基石---混合线性模型

作者: 佛系分析师 | 来源:发表于2019-05-31 15:59 被阅读3次

      使用混合线性模型(linear mixed model)做GWAS可以有效校正群体结构和群体内复杂的亲缘关系。因此,目前绝大多数的GWAS都是使用的混合线性模型。近年来,大量的算法也被提出用于提高混合线性模型的计算效率。我们耳熟能详的做GWAS的软件基本也都是基于混合线性模型的,如GAPIT、GCTA、GEMMA,EMMAX等。今天就来谈谈什么是混合线性模型。


    GWAS.png

      首先要了解GWAS分析是主要使用单点扫描模型,一次只分析一个标记,一个标记一个标记地计算效应值,所以称之为扫描。先说明几个问题:

    1. 为什么要扫描,不能一次性全部分析出来吗?
      最早做GWAS时,标记密度较稀疏,人们觉得标记于标记之间应该是独立的,因此不需要使用多元回归,只需要使用单变量回归即可。此外,一般来说GWAS分析的标记数都是大于样本数的。这种数据称为高维数据,是无法直接运用多元回归去求解的。这个情况类似于给你10个条件,却要你求100个未知数。高维数据的多元回归需要增加惩罚项(也称正则化)或者使用贝叶斯方法才可以完成。

    2. 一般线性模型Y=X\beta + Z_{k}\gamma_{k} + e做GWAS的缺陷是什么?
      我们研究的表型绝大多数都同是受到多个基因影响。现在对于复杂性状,学界比较认可的模型是微效多基因模型:复杂性状受少数几个主效基因和大量微效基因控制。因此,使用一般线性模型进行单点扫描时,认为表型仅受该标记影响。这是不符合模型假设的,对于复杂性状一个标记能解释表型变异的5%已经非常高了。因此,我们求解时会造成严重的高估位点效应值,产生假阳性。

      混合线性模型GWAS的一般形式如下:
    Y=X\beta+Z_{k}\gamma_{k}+\xi+e
      其中X\beta是固定效应,Z_{k}\gamma_{k}是当前标记效应(也被当做固定效应处理),\xi \sim {\mit{N}}(0,K\phi^{2})为多基因效应(其中K是标记计算得到的亲缘关系矩阵)。多基因效应这个概念比较复杂,实际上就是每个分析样本的遗传效应(即所有标记效应值的和)。这一项主要是大量的微效基因效应添加到模型中以校正遗传背景。因此混合线性模型比一般线性模型更符合微效多基因的假设了。


    如果\xi \sim {\mit{N}}(0,K\phi^{2})是所有标记的效应总和,K是怎么来的?K\phi^{2}又是什么意思?

    下次讲解亲缘关系矩阵K的推导。

    相关文章

      网友评论

        本文标题:GWAS基石---混合线性模型

        本文链接:https://www.haomeiwen.com/subject/iozmtctx.html