9.1 GWAS：关联分析

作者: Wei_Sun | 来源:发表于2021-11-17 08:53 被阅读0次

9.1 GWAS：关联分析
2020-02-17 GWAS进阶备选学习资料（GWAS tut
重测序分析（14）全基因组关联分析GWAS介绍
遗传背景分析（群体结构10个样品以上）
基于基因的关联分析的简单背景说明
【GWAS】关联分析中踩坑攻略
全代码可重复|GWAS分析
第九章数据关联规则分析算法——基于Apriori算法的关联项分
2020-09-28
1.GWAS：原理与目的

保证关联分析成功的关键
• 精确可靠的表型
• 表型重复方差最小化，尽量减少非系统测量误差；
• 表型的遗传力最大化。
• 假阳性最低化：尽可能减少位点间的非连锁相关的影响
• GWAS 实际上反应的是表型与各个座位的等位基因状态的相关性，所以位点间的非连锁相关会导致假阳性，位点间的非连锁相关的主要来源包括群体结构（材料的亚群分化）和亲缘关系（材料间的共祖关系）。
• 标记密度足够，理论上 GWAS 最低饱和标记密度=基因组大小/LD 衰减距离，实际上越密越好。

关联分析模型

• 一般线性模型（GLM， general linear model）：只有固定效应，没有随机效应。
• 混合线性模型（MLM， mixed linear model）
• 在一般线性模型的基础上增加了随机效应；
• emma、 CMLM、 FarmCPU、 Blink、 super、 P3D、 fast-LMM 等均是混合线性模型的改进；
• 通过降维提升计算速度，同时不影响功效（power）。

两类错误与统计功效

假阳性：应该不显著，但检测结果显著；
假阴性：应该显著，但检测结果不显著；
统计效力（power）：检测到的QTN的数目占影响某性状的总QTN数目的比例；
一类错误（Type I error）：假阳性标记占错误总标记数的比例。

各模型评价结果

Xiao et al., Mol. Plant, 2017

根据群体结构评估的情况，选用相应的模型，但在实际操作中一般使用多种模型(GLM /MLM /EMMAX /FaST-LMM) 同时分析，根据结果进行取舍；
选择：GLM/MLM/CMLM为基础 (TASSEL/GAPIT)，与EMMAX、 Fast-LMM相互比较，其他作为补充，当性状与群体结构相关时，可以考虑使用FarmCPU；
显著性阈值确定（Bonferroni correction）
Bonferroni correction = 显著性水平（0.01/0.05）/检验次数（number of detected markers）
在实际情况中，当显著水平为0.01和0.05时，会检测到少量甚至没有显著位点，因此也会将显著水平提高到1，要根据实际情况进行调整。

引用转载请注明出处，如有错误敬请指出。