GWAS基本建模原理

作者: 小潤澤 | 来源:发表于2020-08-12 00:11 被阅读0次

混合线性模型

我们说的混合线性模型主要是由固定效应和随机效应所构成的,固定效应是我们主要研究的影响因素,而随机效应是潜在的,影响固定效应的因素。
对于混合线性模型来说,随机效应对固定效应的影响有两种:
一种是:
随机效应通过影响固定效应的截距,从而产生对固定效应的影响,我们把这个称为层次影响


其中 x 是固定效应;β0j表示截距,β1j表示斜率,γ00表示截距的平均值,Uoj表示随机效应的方差,那么不同的随机效应会对β0j产生不同的影响。
第二种是:

随机效应对回归系数产生影响,γ10为随机效应斜率的均值,U1j为随机效应的方差,那么不同的随机效应会对β1j产生不同的影响

第三种是:


加入随机效应项,αx为固定效应项,zβ为随机效应项,β为设计矩阵,z为随机效应的变量

GWAS原理

这里参考了某大佬写的,GWAS利用的原理既是混合线性模型,如果是加型效应:
我们先看下不考虑随机效应的:


对于等位基因来说,如果不考虑随机效应,那么我们可以看成是简单的一元回归问题。

对于等位基因来说,如果这个位点C为未发生变异的位点(T为变异位点),我们不妨设C=1,T=0。则CC=2,CT=1,TT=0

那么上图就构成了一元回归里面的数据点
我们的任务就是,找到合适的a,b使得:

最小,所以根据最小二乘法,对每一个回归系数求偏导,得到正规方程组,求解即可。

考虑随机效应,那么模型就变成了:



αx为固定效应项,zβ为随机效应项,β为设计矩阵,z为随机效应的变量
那么我们设计好矩阵,即哪一个表型受随机因素的影响:



那么我们设计好矩阵设计好各随机因素β的权重就可以利用最小二乘法求解了
比方说光照的权重c是3;温度的权重d为2;干旱的权重e为5;有(高)表示为1;无(低)表示为0,则:

根据最小二乘法对每一个回归系数求偏导,得到正规方程组,求解α,β系数矩阵即可

另一种建模方式

1.特征提取

根据《Population structure in genetic studies: Confounding factors and mixed models》提到的建模方式


建模的核心依然是混合线性模型,只不过它的特征提取采用的是变异的平均频率来表示

上图,pk表示种群里面某位点(snp)变异的频率,比方说现在有A,B,C,D,E五个品系,

其中对于SNP_1,A品系未发生突变,D品系发生一种碱基突变,C品系发生两种碱基突变,其他SNP类似
那么对于SNP_1来说,其变异频率pk为
3/5,其他SNP类似计算

如果SNP没发生突变:



如果SNP发生一种碱基的突变:



如果两个SNP发生两种碱基的突变:

2.建模原理

回顾下模型:



e为随机因素

比方说目前有一个高血压的SNP的数据:



每一条序列可以看作是一个品种(处理)

H0
H1

这里有两个基本假设:第一个假设是H0假设,该假设也被称为null hypothesis,它认为SNP和性状没有关联,也即是说,性状 y 等于总体平均与环境因素的加和。
第二个假设是H1假设,该假设认为SNP和性状存在关系,也就是说当存在某个SNP的时候,某个性状或某个疾病会倾向于发生在该个体身上,β是指该SNP对性状影响的大小,也就是说, β越大,该SNP对性状的影响越大
显然left SNP对性状的影响更明显

其中:
这里的 Xjk 为标准化的pk值 (图中仅显示了C和T位点)
模型中的 y 为性状值,本例中为血压值

3.非模型因素

为了让模型效果更好,作者引入了u,作为非模型因素


新模型:

这个u的特点是:Unmodeled factors可以通过两个strain的相同snp的个数来表征,我们可以建立一个矩阵,如Fig 13所示,矩阵中的元素代表两个strain相同snp的数目。根据这个矩阵可以得到unmodeled factor的大小,然后用一个随机变量u来代表unmodeled factors。u也被称为随机效应或variance

参考:
全基因组关联分析(GWAS)的计算原理

《Population structure in genetic studies: Confounding factors and mixed models》

相关文章

  • GWAS基本建模原理

    混合线性模型 我们说的混合线性模型主要是由固定效应和随机效应所构成的,固定效应是我们主要研究的影响因素,而随机效应...

  • 2020-02-17 GWAS进阶备选学习资料(GWAS tut

    GWAS进阶备选 0 原理 啊,全基因组关联分析(GWAS)的计算原理,了解一下? 1 分析流程 GWAS分析基本...

  • GWAS基本原理

    常用GWAS统计方法和模型简介 - 简书 (jianshu.com)[https://www.jianshu.co...

  • 群体进化-GWAS分析

    群体进化-gwas分析 群体进化基础分析 PCA 分析原理PCA(Principal Component ...

  • GWAS

    GWAS原理加实例操作 https://www.cnblogs.com/leezx/p/9013615.html

  • 常用GWAS统计方法和模型简介

    本文是百迈客GWAS生物信息培训课程学习笔记第二篇,第一篇请参考GWAS基本分析内容 这里首先介绍了GWAS分析中...

  • 全基因组关联分析(GWAS)的计算原理

    前言 关于全基因组关联分析(GWAS)原理的资料,网上有很多。 这也是我写了这么多GWAS的软件教程,却从来没有写...

  • GWAS DATABASE

    搜集各类gwas库: GWAS Catalog:https://www.ebi.ac.uk/gwas/ GWAS ...

  • GWAS imputation

    GWAS imputation是什么? Genotype imputation 是运用连锁不平衡的原理依据一个高密...

  • GWAS基本分析内容

    之前给大家大致介绍了GWAS在临床生信分析中的概况,包括一些基本概念,原理和注意事项(出门左手边—>临床生物信息学...

网友评论

    本文标题:GWAS基本建模原理

    本文链接:https://www.haomeiwen.com/subject/joaddktx.html