全基因组关联分析(Genome-Wide Association Study, GWAS)是以连锁不平衡(LD)为基础,利用全基因组范围内群体中高密度的分子标记,鉴定与复杂性状表型变异相关联的分子标记,进而挖掘与表型相关基因的方法。
关联定位的优势:
- 利用长期进化过程中积累的重组信息,分辨率高(人工群体除外);
- 研究材料来源广泛,变异信息丰富;
- 节省时间。
关联定位的缺点:
- 自然群体在长期的随机交配中可能连锁关系被打碎,尤其在异交比较频繁的物种中,因此需要的标记密度更高;
-
群体结构和遗传背景复杂,假阳性可能偏高。
关联分析的基础:连锁不平衡(linkage disequilibrium, LD)
- 当位于某一座位的特定等位基因与另一座位的某一等位基因,同时出现的概率大于群体中因随机分布的两个等位基因同时出现的概率时,就称这两个座位处于连锁不平衡状态。
- 两个相邻的基因A, B,它们的等位基因分别为a, b。后代群体中,实际观察到的单体型基因型AB,出现的概率为 D,即LD的基本单位,度量观察到的单倍型频率与平衡状态下期望频率的偏差:
D= P(AB)= P(A)* P(B), 则A, B独立遗传;
D= P(AB)≠ P(A)* P(B),则A, B存在连锁不平衡。
因为D的取值强烈地依赖于人为制定的等位基因频率,所以它不利于LD程度的比较。标准化的不平衡系数D' 能够避免这种对等位基因频率的依赖。
D' 的计算方法如下:
D' =D/Dmax
当D<0, Dmax = max { -PAPB , -(1-PA)(1-PB)} ;
当D>0, Dmax = min { PA (1-PB), (1-PA)PB} ;
当D' =1,表示连锁完全不平衡,没有重组;
当D' =0,表示连锁完全平衡,随机组合,独立遗传。
但D' 也有它的局限性,比如当单倍型为两种或三种时,| D' |一定等于1,但是当| D' |<1时,D' 的值究竟表示多大程度的连锁不平衡,是很难做出准确判断的。另外D' 严格依赖于样品的大小,如果样本偏少时,SNP数量比较少,这样算出来的D' 就会偏大,尤其是某个位点其中一个等位基因频率很低时,因此较高D' 背后,实际上可能是连锁不平衡程度很低的两个位点。因此引进r 2来表示LD,r 2的计算方法如下:
当r 2=1,表示连锁完全不平衡,没有重组;
当r 2=0,表示连锁完全平衡,随机组合,独立遗传。
r 2和D' 是衡量LD的常用指标,关系如下:
- r 2包括了重组和突变,而D' 只包括重组史;
- D' 能更准确地估测重组差异,但样本较小时,低频率等位基因组合可能无法观测到,导致LD强度被高估,所以D' 不适合小样本群体研究。
- LD衰减作图中通常采用r 2来表示群体的LD水平;
- LD分析主要包括LD衰减距离分析和LD block分析,描述LD衰减情况时,通常用r 2,描述LD block时,可以用D' 也可以用r 2。
引用转载请注明出处,如有错误敬请指出。
网友评论