一、何为GWAS?
GWAS(Genome-wide Association Study)是对多个个体在全基因组范围的遗传变异(标记)多态性进行检测,获得基因型,进而将基因型与可观测的性状,即表型,进行群体水平的统计学分析,根据统计量或显著性 p 值筛选出最有可能影响该性状的遗传变异(标记),挖掘与性状变异相关的基因。
- 寻找SNP,找出基因型和表型之间有无任何关联。如何找呢,就是在全基因组范围内检测后,找到与表型相关的最显著的基因位点。
image.png
- 关联分析的基础:连锁不平衡(LD)
当位于某一座位的特定等位基因与另一座位的某一等位基因同时出现的概率大于群体中因随机分布的两个等位基因同时出现的概率时,就称这两个座位处于连锁不平衡状态
LD衰减
• LD的衰减指位点间由连锁不平衡到连锁平衡的演变过程;
• LD的衰减距离决定关联分析时所需标记密度,也在一定程度上决定关联分析的精度。
image.png
- Haplotype Block
• 单体型块,即连锁不平衡区域,是指同一条染色体上处于连锁不平衡状态的一段连续的区域
• 单体型块分析可以用于筛选 tag SNP、确定候选基因的范围等
二、连锁分析和GWAS分析比较
-
连锁分析的定位依赖于家族中标记基因型与表现型的共分离,通过鉴定经多代传递仍完整的
单倍型
为基础的,检测在一个家系中等位基因与疾病的传递是否相关。
关联分析的定位方法则是在种群
水平上,通过鉴定经许多代数传递后仍保留完好的相邻近DNA变异之间的DNA片段,检测在一个群体中疾病和等位基因的相关性的存在与否 - 连锁采用
家系样本
;关联采用散发样本
- 连锁应用
LINKAGE核心IBD算法
做计算;关联用卡方检验
- 连锁一般找到的是某个
区域
;关联找到的是某个点
- 连锁结果相对准确,
假阳性小
,但精细定位很困难,主要原因是家系问题
关联相对粗糙,假阳性很高
,但可以直接定到基因位点
三、GWAS分析基本内容
- 前期:材料选择,性状调查,基因分型
- 中期:
(1)模型选择
①数据质控,对基因型和表型做数据的删除及筛选,保证分析质量
②LD衰减,评估标记的密度高低以及是否具有代表性
③群体结构,便于关联分析模型的选择
④关联分析,显著位点的筛选,单倍型block分析,候选基因的确定与注释
(2)关联结果
四、如何分析?如何选材?
- 分析
(1)逻辑回归(表型数据为二元,有或无)
(2)线性回归(表型为连续型变量)
(3)表型数据正态分析(若不是正态分布也需要转换为正态分布) - 如何选材
(1)基本原则:①遗传变异和表型变异丰富②不能隔得太远导致生殖隔离
(2)样本量:非稀有变异中,对中等变异解释率(10%左右)的位点的检测功效要达到80%以上时,需要的样本量在400左右
位点的效应越低,需要的样本量越大
五、常用作图群体
- 根据遗传稳定性,分为临时性群体,如F2、F3、F4、BC、三交群体等,这类群体中分离单位是个体,一经自交或近交其遗传组成就会发生变化,无法永久使用;永久性分离群体,如RI、DH群体等,这类群体中分离单位是株系,不同株系之间存在基因型的差异,而株系内个体间的基因型是相同且纯合的,是自交不分离的。
- 各类群体
(1)F2代群体(最常用)
优点:容易构建
缺点:
①无法识别出显性标记是纯合体还是杂合体(eg.AA和Aa)
②不易保存,需要选择对其进行无性繁殖(并非所有植物适用)或是培育F2单株的衍生系(需随机且数量足够多,对自花授粉植物如水稻适用)
(2)BC1群体(回交一代)
优点:
①每一分离的基因座仅两种基因型,反应了F1代配子的分离比例,因而作图效率最高
②可用来检验雌雄配子在基因间的重组率上是否存在差异
缺点:
①不能长期保存,延长使用时间的方法类似F2群里
②不适合用于人工杂交比较困难的植物
对于一些自交不亲和的材料,可使用三交群体(A×B)×C,由于存在自交不亲和性,这样就不存在假杂种现象。
(3)RI群体(重组自交系)
从F2代开始,采用单粒传的方法建立,自交可使基因型纯合化,故每个株系都是纯合的,是一种可以长期使用的永久性分离群体。
优点:可以长期使用,进行重复试验,适合用于QTL定位研究,更适合用于自花授粉植物
缺点:耗时,从理论上看,对于一个拥有10条染色体的植物中,要建立完全纯合的RI作图群体需要至少自交15代。但实际上常使用自交6~7代的“准”RI群体
RI 群体每一分离座位上只存在两种基因型,比例为1:1,
(4)DH群体(加倍单倍体或双单倍体)
常见方法:花药培养,取F1花药进行离体培养,诱导产生单倍体植株,再对其进行加倍产生DH植株(纯合)
优点:
①可以稳定繁殖,长期使用,为永久性群体.
②同BC1一样,作图效率最高
③可反复使用,重复试验,适合QTL定位研究
缺点:
①不适用于花药培养困难的植物,其花药培养能力与基因型关系较大,故在此过程中会对不同基因型花粉产生选择效应,破坏DH群体的遗传结构,造成较严重的偏分离现象,影响作图的准确性
参考链接:
全基因组关联分析 (GWAS) - 简介 - 简书 (jianshu.com)
连锁分析方法介绍 - 简书 (jianshu.com)
GWAS分析-说人话(1)什么是GWAS,都分析啥? - 简书 (jianshu.com)
常用作图群体简介 - 简书 (jianshu.com)
网友评论